第一类是 autoregressive drafter,也就是草稿模型自己也按顺序一个 token 一个 token 地生成。这样做的好处是,后面的 token...
最近这一个月,AI圈的更新密度有点夸张,朋友圈和技术社区里几乎每天都有新模型刷屏。但如果只是看热闹,很容易被参数和跑分淹没,找不到真正值得花时间研究的点。整理了...
2026 年,大模型应用正在进入降本周期。过去,企业做 AI 应用时,最关心的是模型能力。回答是否准确、生成是否自然、是否支持多轮对话、是否能接入知识库,是早期...
2026 年,大模型应用正在从“能不能用”进入“稳不稳定”的新阶段。过去,企业关注大模型应用时,更多看重模型效果,例如回答是否准确、生成速度是否够快、是否能接入...
这和 speculative decoding 的实现思路有点像。一般来说,生成 N 个 token 需要大模型跑 N 次;speculative decodi...
模型推理需计算每个token和其他token的关系,因此上下文越长,计算负担越重,token消耗越多。同样一个问题,没有头尾的丢给Agent,消耗不了几个tok...
Fireworks AI的联合创始人兼CTO、PyTorch核心维护者Dmytro Dzhulgakov将整篇论文梳理成了10个概念,从最底层的GPU访存特性讲...
回应丹耀/锋点单的「Token 节省」话题。端午篇先开了个头,这里给完整版——从真实账单出发,拆解 7 个可操作的工程化降本手段,不讲玄学,只讲落地。
6月,Coinbase CEO Brian Armstrong 对外公开了一套公司内部的AI成本优化方案,直接晒出了过去三年的AI支出与Token用量对比图。
用vLLM部署推理模型,长序列推理时频繁爆显存。于是给服务加了KV缓存压缩策略,淘汰90%的非重要缓存token,重启后显存占用几乎没变,还是会在相近的序列长度...
如果你每天跟 Claude Code 或 Cursor 打交道,大概对一件事深有体会:token 烧得比想象中快。
别被“数字贸易”“算力出海”这类大词唬住。所谓Token出海,本质就是把国内低价的大模型算力,打包成标准化API服务卖给海外客户,赚成本差价。和早年跨境电商倒货...
Claude Code探索一个中等规模的代码库,一次对话动辄消耗40万+Token。按照Claude Opus的价格,这大约是6美元一次。一天问10个问题,60...
从 Prompt 到 Loop,四个工程阶段每一步都在用更多 token 换更高可用性。这不是模型在变聪明,是工程在替模型还债。
这个改动对 token 消耗的影响是巨大的。从「每次 dispatch 带上全部历史」到「每次 dispatch 只传当前任务的文件路径」,省掉的不只是当前这一...
尤其是在 Anthropic 刚刚将 Claude Code 升级至 GA 全量通用阶段,并正式引入了诸如“动态工作流(Dynamic Workflows)”和...
上个月闲逛腾讯云开发者社区,发现写文章能赚积分,积分能换云产品代金券。对于一个常年跟服务器打交道的开发者来说,这简直是白嫖计算资源的好路子。
DESIGN.md 是 Google Labs 给 AI 编码 agent 写的「设计说明书」格式——用 YAML token + 自然语言 prose 的双层...