Michael阿明

文章/答案/技术大牛

发布

LV1

发表了文章 1天前2026-06-30 13:42:52

让 AI Agent 学会收发邮件：Agent Mail CLI 配置体验与玩法

最近体验了一下 Agent Mail CLI。它的核心价值很明确：让 AI Agent 拥有一个专属邮箱，可以通过自然语言完成收信、发信、整理资料、发送附件、提...

Michael阿明 1天前2026-06-30 13:42:52

发表了文章 2天前2026-06-29 13:09:34

CUDA编程：Parallel Reduction 并行归约与 Warp Shuffle 优化

注意：本实验计时主要是 GPU kernel 计算时间，不包含完整 H2D/D2H 端到端时间。

Michael阿明 2天前2026-06-29 13:09:34

编程、线程、优化、cuda、shuffle

发表了文章 2天前2026-06-29 13:09:04

CUDA 编程：Occupancy、Block Size 与 Kernel 启动配置调优

前面我们已经看到：TILE、blockDim、shared memory、bank conflict 都会影响性能。

Michael阿明 2天前2026-06-29 13:09:04

size、编程、配置、block、cuda

发表了文章 7天前2026-06-24 12:16:44

把九九乘法表装进口袋：我给孩子做了一款会听、会说、会复盘的乘法口诀 App

最近给孩子做了一个小工具：TimesTableGO，一个安卓端乘法口诀背诵 App。

Michael阿明 7天前2026-06-24 12:16:44

配置、统计、语音、app、模型

发表了文章 2026-05-292026-05-29 12:06:55

CUDA编程：Shared Memory Bank Conflict 与 Padding 优化

Global Memory 的 Memory Coalescing：让 warp 内线程尽量访问连续 Global 内存地址。

Michael阿明 2026-05-292026-05-29 12:06:56

优化、cuda、memory、padding、编程

发表了文章 2026-05-262026-05-26 20:45:59

CacheDiT、TaylorSeer 与 SCM：DiT 扩散模型推理加速到底在加速什么？

在图像、视频生成模型里， Diffusion Transformer，简称 DiT

Michael阿明 2026-05-262026-05-26 20:45:59

pipe、torch、模型、缓存、max

发表了文章 2026-05-192026-05-19 16:39:22

TeaCache：让扩散模型少算几步，但尽量不掉画质

扩散模型生成图片/视频时，本质是在很多个 denoising step 中反复调用 Transformer/DiT。TeaCache 的核心思想很简单：

Michael阿明 2026-05-192026-05-19 16:39:23

self、模型、视频、缓存、迁移

发表了文章 2026-05-132026-05-13 17:38:47

Global 内存访问与 Memory Coalescing 实验解析

第 7 课围绕 CUDA 中非常关键的 Memory Coalescing，即内存合并访问展开。

Michael阿明 2026-05-132026-05-13 17:38:48

global、memory、内存、事务、线程

发表了文章 2026-05-132026-05-13 17:38:01

Shared Memory 与矩阵乘法分块优化实验

本文围绕 CUDA 矩阵乘法中的 Shared Memory 优化展开，通过 Naive 矩阵乘法与 Shared Memory Tiled 矩阵乘法的对比实验...

Michael阿明 2026-05-132026-05-13 17:38:02

std、线程、优化、memory、shared

发表了文章 2026-05-132026-05-13 17:36:05

异步拷贝与 CUDA Stream（计算与数据传输重叠）

在串行执行模式下，程序按照 H2D → Kernel → D2H 顺序运行，数据传输时 GPU 计算单元空闲，kernel 计算时 copy engine 又可...

Michael阿明 2026-05-132026-05-13 17:36:05

cuda、int、stream、time、异步

发表了文章 2026-05-062026-05-06 13:49:18

CUDA编程：Pinned Memory（固定页内存）如何提升 CPU↔GPU 数据传输效率

前几课已经发现，很多 CUDA 程序并不是慢在 GPU kernel，而是慢在 H2D 和 D2H 数据搬运。因此，第四课的重点从“怎么写 kernel”转向...

Michael阿明 2026-05-062026-05-06 13:49:19

cuda、memory、编程、内存、效率

发表了文章 2026-05-062026-05-06 13:46:21

CUDA编程 - vector加法

执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译

Michael阿明 2026-05-062026-05-06 13:46:21

线程、cuda、std、vector、编程

发表了文章 2026-05-062026-05-06 13:45:32

大模型推理 DP\TP\PP\EP 理解

DP 的核心思想是：每组 GPU 上都有一份完整模型，请求被分发到不同副本上处理。

Michael阿明 2026-05-062026-05-06 13:45:33

模型、通信、dp、并发、工作

发表了文章 2026-03-252026-03-25 13:59:19

AutoClaw实测：动口就能搞定音频提取、视频拼接，还能接入飞书！

分享一款智谱的龙虾 AutoClaw，亲测可通过对话指令完成视频音频提取、视频拼接等操作，支持自定义模型，还能接入飞书配置机器人，全程动口不动手，操作简单且效果...

Michael阿明 2026-03-252026-03-25 13:59:20

音频、机器人、模型、配置、视频

发表了文章 2026-03-252026-03-25 13:58:34

使用AI编程开发乘法竖式计算演示web应用

本文使用AI辅助，完全不敲一行代码，实现了一个乘法竖式计算演示的web应用，并部署到了github pages上

Michael阿明 2026-03-252026-03-25 13:58:34

部署、动画、开发、web、编程

发表了文章 2026-03-252026-03-25 13:58:13

多进程CUDA初始化的问题 Cannot re-initialize CUDA in forked subprocess

上面这个例子会报错，主进程触发了 CUDA 初始化，fork 出来的子进程中创建 tensor 的时候报错了

Michael阿明 2026-03-252026-03-25 13:58:14

进程、cuda、subprocess、多进程、继承

发表了文章 2026-03-252026-03-25 13:57:54

显存大解放：vLLM Sleep模式实战指南，90% GPU资源瞬间回收！

参考 https://docs.vllm.ai/en/latest/features/sleep_mode/

Michael阿明 2026-03-252026-03-25 13:57:55

sleep、服务、模型、内存、gpu

发表了文章 2026-03-252026-03-25 13:57:12

使用 json-repair 修复 llm 生成的 json 格式错误

当大模型生成json格式的输出时，有时候可能会出现缺少引号，单引号等问题，json-repair 可以很好的解决这个问题

Michael阿明 2026-03-252026-03-25 13:57:36

json、对象、工具、字符串、LLM

发表了文章 2026-03-252026-03-25 13:56:51

你的 FastAPI 服务还缺一个监控仪表盘？Prometheus 一站式搞定

然后在监控服务web页面查询 api_requests_total，可以查看任务成功和失败次数

Michael阿明 2026-03-252026-03-25 13:56:52

fastapi、prometheus、服务、监控、配置

发表了文章 2026-03-252026-03-25 13:56:25

为爱编程：用 Python 自动化 PDF 签名，顺便秀一波技术

今天突然收到了女朋友的求助信息：“亲爱的，我的 PDF 软件好像坏了，我需要在上面加个电子签名，你能帮我弄一下吗？”

Michael阿明 2026-03-252026-03-25 13:56:25

编程、压缩、python、自动化、pdf

12 3 4 5 6 7 8...129 下一页

个人简介

互联网 | 算法工程师
8年机械工程师，已转行做AI算法，一起加油！高举智慧，她就使你高升；怀抱智慧，她就使你尊荣
c++python 数据结构编程算法机器学习
BJTU | Mechanical
https://michael.blog.csdn.net/
北京
加入社区时间：2020-02-20

个人成就

获得 4.9K 次赞同
文章被阅读 2.3M 次

关注了：4关注者：81

Michael阿明

让 AI Agent 学会收发邮件：Agent Mail CLI 配置体验与玩法

CUDA编程：Parallel Reduction 并行归约与 Warp Shuffle 优化

CUDA 编程：Occupancy、Block Size 与 Kernel 启动配置调优

把九九乘法表装进口袋：我给孩子做了一款会听、会说、会复盘的乘法口诀 App

CUDA编程：Shared Memory Bank Conflict 与 Padding 优化

CacheDiT、TaylorSeer 与 SCM：DiT 扩散模型推理加速到底在加速什么？

TeaCache：让扩散模型少算几步，但尽量不掉画质

Global 内存访问与 Memory Coalescing 实验解析

Shared Memory 与矩阵乘法分块优化实验

异步拷贝与 CUDA Stream（计算与数据传输重叠）

CUDA编程：Pinned Memory（固定页内存）如何提升 CPU↔GPU 数据传输效率

CUDA编程 - vector加法

大模型推理 DP\TP\PP\EP 理解

AutoClaw实测：动口就能搞定音频提取、视频拼接，还能接入飞书！

使用AI编程开发乘法竖式计算演示web应用

多进程CUDA初始化的问题 Cannot re-initialize CUDA in forked subprocess

显存大解放：vLLM Sleep模式实战指南，90% GPU资源瞬间回收！

使用 json-repair 修复 llm 生成的 json 格式错误

你的 FastAPI 服务还缺一个监控仪表盘？Prometheus 一站式搞定

为爱编程：用 Python 自动化 PDF 签名，顺便秀一波技术

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Michael阿明

让 AI Agent 学会收发邮件：Agent Mail CLI 配置体验与玩法

CUDA编程：Parallel Reduction 并行归约与 Warp Shuffle 优化

CUDA 编程：Occupancy、Block Size 与 Kernel 启动配置调优

把九九乘法表装进口袋：我给孩子做了一款会听、会说、会复盘的乘法口诀 App

CUDA编程：Shared Memory Bank Conflict 与 Padding 优化

CacheDiT、TaylorSeer 与 SCM：DiT 扩散模型推理加速到底在加速什么？

TeaCache：让扩散模型少算几步，但尽量不掉画质

Global 内存访问与 Memory Coalescing 实验解析

Shared Memory 与矩阵乘法分块优化实验

异步拷贝与 CUDA Stream（计算与数据传输重叠）

CUDA编程：Pinned Memory（固定页内存）如何提升 CPU↔GPU 数据传输效率

CUDA编程 - vector加法

大模型推理 DP\TP\PP\EP 理解

AutoClaw实测：动口就能搞定音频提取、视频拼接，还能接入飞书！

使用AI编程开发 乘法竖式计算演示web应用

多进程CUDA初始化的问题 Cannot re-initialize CUDA in forked subprocess

显存大解放：vLLM Sleep模式实战指南，90% GPU资源瞬间回收！

使用 json-repair 修复 llm 生成的 json 格式错误

你的 FastAPI 服务还缺一个监控仪表盘？Prometheus 一站式搞定

为爱编程：用 Python 自动化 PDF 签名，顺便秀一波技术

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

使用AI编程开发乘法竖式计算演示web应用