首页
学习
活动
专区
圈层
工具
发布

#token

论文解读:DeepSeek DSpark 在真实高并发推理服务中,如何保证 Token 生成又好又快?

七牛开发者

第一类是 autoregressive drafter,也就是草稿模型自己也按顺序一个 token 一个 token 地生成。这样做的好处是,后面的 token...

1200

2026年中这波AI更新潮,工程师真正该关注的是哪几条

用户12531518

最近这一个月,AI圈的更新密度有点夸张,朋友圈和技术社区里几乎每天都有新模型刷屏。但如果只是看热闹,很容易被参数和跑分淹没,找不到真正值得花时间研究的点。整理了...

1100

重磅观察:大模型应用进入降本周期,缓存、路由和 Token 治理成为新战场

用户12583401

2026 年,大模型应用正在进入降本周期。过去,企业做 AI 应用时,最关心的是模型能力。回答是否准确、生成是否自然、是否支持多轮对话、是否能接入知识库,是早期...

1700

2026 高新科技观察:大模型可观测性升温,响应时间、Token 和调用链成为 AI 系统新指标

用户12583401

2026 年,大模型应用正在从“能不能用”进入“稳不稳定”的新阶段。过去,企业关注大模型应用时,更多看重模型效果,例如回答是否准确、生成速度是否够快、是否能接入...

1500

端侧 AI 的推理加速:手机端大模型怎么提速?

七牛开发者

这和 speculative decoding 的实现思路有点像。一般来说,生成 N 个 token 需要大模型跑 N 次;speculative decodi...

3810

Token不经济

小腾资讯君

模型推理需计算每个token和其他token的关系,因此上下文越长,计算负担越重,token消耗越多。同样一个问题,没有头尾的丢给Agent,消耗不了几个tok...

5500

梁文锋署名的DSpark,看懂这10个点就够了!

Amusi

Fireworks AI的联合创始人兼CTO、PyTorch核心维护者Dmytro Dzhulgakov将整篇论文梳理成了10个概念,从最底层的GPU访存特性讲...

8810

读者点单·05|Token 节省专题:把 AI 编程账单砍 60% 的 7 个工程化手段

陆业聪

回应丹耀/锋点单的「Token 节省」话题。端午篇先开了个头,这里给完整版——从真实账单出发,拆解 7 个可操作的工程化降本手段,不讲玄学,只讲落地。

6010

Coinbase把AI支出砍了近一半,Token用量却还在涨

用户11563501

6月,Coinbase CEO Brian Armstrong 对外公开了一套公司内部的AI成本优化方案,直接晒出了过去三年的AI支出与Token用量对比图。

3410

一道LLM推理部署面试题:KV缓存淘汰90% token,显存为什么没降?

用户11563501

用vLLM部署推理模型,长序列推理时频繁爆显存。于是给服务加了KV缓存压缩策略,淘汰90%的非重要缓存token,重启后显存占用几乎没变,还是会在相近的序列长度...

7510

Headroom:Netflix 工程师开源的上下文压缩工具,省 token 还是烧 token?

用户11563501

如果你每天跟 Claude Code 或 Cursor 打交道,大概对一件事深有体会:token 烧得比想象中快。

8010

AI前沿 | Token出海全拆解:是什么、怎么赚、有哪些坑

翻身AI挖掘机

别被“数字贸易”“算力出海”这类大词唬住。所谓Token出海,本质就是把国内低价的大模型算力,打包成标准化API服务卖给海外客户,赚成本差价。和早年跨境电商倒货...

13110

登顶GitHub Trending!知识图谱让AI吃透百万行代码,Token节省99%

老周聊架构

Claude Code探索一个中等规模的代码库,一次对话动辄消耗40万+Token。按照Claude Opus的价格,这大约是6美元一次。一天问10个问题,60...

8810

Loop Engineering 的代价:LLM 可用性是工程用 Token 买出来的

乱世不浮生

从 Prompt 到 Loop,四个工程阶段每一步都在用更多 token 换更高可用性。这不是模型在变聪明,是工程在替模型还债。

2810

237k 星的 Superpowers 插件升级到 6.0.3,token 砍半!90% 的人只用了它 10% 的功能

码哥字节

这个改动对 token 消耗的影响是巨大的。从「每次 dispatch 带上全部历史」到「每次 dispatch 只传当前任务的文件路径」,省掉的不只是当前这一...

9810

Claude Code强大是因为模型强还是agent实现细节?

鱼片粥来碗豆腐

尤其是在 Anthropic 刚刚将 Claude Code 升级至 GA 全量通用阶段,并正式引入了诸如“动态工作流(Dynamic Workflows)”和...

1500

我是如何用WorkBuddy搭建「日更写作+积分赚钱」自动化管线的

用户12586618

上个月闲逛腾讯云开发者社区,发现写文章能赚积分,积分能换云产品代金券。对于一个常年跟服务器打交道的开发者来说,这简直是白嫖计算资源的好路子。

6410

Google Labs 用 DESIGN.md 把设计 token 时代翻篇

智能时代蛮子

DESIGN.md 是 Google Labs 给 AI 编码 agent 写的「设计说明书」格式——用 YAML token + 自然语言 prose 的双层...

26600
领券