暂无搜索历史
最近体验了一下 Agent Mail CLI。它的核心价值很明确:让 AI Agent 拥有一个专属邮箱,可以通过自然语言完成收信、发信、整理资料、发送附件、提...
注意:本实验计时主要是 GPU kernel 计算时间,不包含完整 H2D/D2H 端到端时间。
前面我们已经看到:TILE、blockDim、shared memory、bank conflict 都会影响性能。
最近给孩子做了一个小工具:TimesTableGO,一个安卓端乘法口诀背诵 App。
Global Memory 的 Memory Coalescing:让 warp 内线程尽量访问连续 Global 内存地址。
在图像、视频生成模型里, Diffusion Transformer,简称 DiT
扩散模型生成图片/视频时,本质是在很多个 denoising step 中反复调用 Transformer/DiT。TeaCache 的核心思想很简单:
第 7 课围绕 CUDA 中非常关键的 Memory Coalescing,即内存合并访问 展开。
本文围绕 CUDA 矩阵乘法中的 Shared Memory 优化展开,通过 Naive 矩阵乘法与 Shared Memory Tiled 矩阵乘法的对比实验...
在串行执行模式下,程序按照 H2D → Kernel → D2H 顺序运行,数据传输时 GPU 计算单元空闲,kernel 计算时 copy engine 又可...
前几课已经发现,很多 CUDA 程序并不是慢在 GPU kernel,而是慢在 H2D 和 D2H 数据搬运。 因此,第四课的重点从“怎么写 kernel”转向...
执行 !nvcc -O3 -std=c++17 -arch=sm_75 vector_add.cu -o vector_add 编译
DP 的核心思想是:每组 GPU 上都有一份完整模型,请求被分发到不同副本上处理。
分享一款智谱的龙虾 AutoClaw,亲测可通过对话指令完成视频音频提取、视频拼接等操作,支持自定义模型,还能接入飞书配置机器人,全程动口不动手,操作简单且效果...
本文使用AI辅助,完全不敲一行代码,实现了一个乘法竖式计算演示的web应用,并部署到了github pages上
上面这个例子会报错,主进程触发了 CUDA 初始化,fork 出来的子进程中创建 tensor 的时候报错了
参考 https://docs.vllm.ai/en/latest/features/sleep_mode/
当大模型生成json格式的输出时,有时候可能会出现缺少引号,单引号等问题,json-repair 可以很好的解决这个问题
然后在监控服务web页面查询 api_requests_total,可以查看任务成功和失败次数
今天突然收到了女朋友的求助信息:“亲爱的,我的 PDF 软件好像坏了,我需要在上面加个电子签名,你能帮我弄一下吗?”