从Auto模型被坑到手动选模型的血泪史

原创

用户12490485

发布于 2026-06-03 10:46:19

1620

从 Auto 模型被坑到手动选模型：一个小说作者用 WorkBuddy 的积分血泪史

一个晚上烧掉 1200 积分，却什么都没看到——这是我和 WorkBuddy 故事的开始。

引子：我以为 WorkBuddy 就是个坑

2026年5月初，我刚开始用 WorkBuddy。我是个写小说的作者，日常就是和 AI 聊天讨论剧情设计、生成分卷大纲、偶尔让它帮我分析文档。不是什么程序员，也不跑代码，按理说用量不会太大。

注册进去，WorkBuddy 默认是"Auto 自动选模型"。我觉得挺好，让它自己选吧，专业的事交给专业的工具。

结果5月7日凌晨，我像往常一样问了一个小说相关的问题。AI 显示"思考中..."，等了很久没有输出。我以为卡死了，刷新，重试，再问一次——还是没输出。断断续续折腾了两个多小时，什么结果都没看到，气得关机上床。

第二天一看积分余额，傻眼了。

一个晚上烧掉了 1200 多积分。

我第一反应是：WorkBuddy 就是来圈钱的吧？一个聊天工具至于吗？准备弃坑。

但冷静下来之后，我决定查清楚——它到底把积分花在哪儿了。

第一章：导出账单，我看到了一组可怕的数据

WorkBuddy 提供了使用记录导出功能，我下载了一份完整的 Excel 账单。到手时没当回事，但仔细一看，问题全暴露了。

先看一组总数据：

指标	数值
时间跨度	5月7日 ~ 6月3日（28天）
总请求数	631 次
总积分消耗	4431.70 分
平均单次消耗	7.02 分
最高单次消耗	183.58 分

平均 7 分一次，最高 183 分——一个写小说的聊天，怎么可能？我把数据按模型拆开看，答案一下就清晰了。

模型消耗排名（按总积分降序）

模型	请求数	总积分	占比	平均单次
glm-5.1	25	1207.38	27.2%	57.27 分
deepseek-v4-flash	257	1917.00	43.2%	7.46 分
deepseek-v4-pro	278	1080.23	24.3%	3.89 分
hy3-preview-o	19	173.80	3.9%	9.15 分
hy3-preview-agent	39	29.44	0.7%	0.76 分
minimax-m2.7	10	12.96	0.3%	1.30 分
auto-pro	3	10.89	0.2%	3.63 分

glm-5.1，25 次请求，吃掉 1207 分。 它只占所有请求的 4%，却占了总积分的 27%。最高一次单次 183.58 分——相当于我后来用 hy3-preview-agent 的 240 次对话。

那 25 次请求里，有 21 次发生在 5月7日凌晨的 00:06 ~ 02:26，恰好就是我觉得"卡死了"然后反复提交的那两个小时。看一下时间序列就明白了：

消耗金额一路攀升：25 → 43 → 65 → 93 → 150 → 160 → 183。这不是偶然的波动，这是模型每次重新推理时，对话上下文越积累越大，成本越来越高。

为什么 Auto 模型选到了 glm-5.1？

后来我才知道，glm-5.1 是一种"深度推理模型"。它和普通对话模型的工作方式完全不同：

普通模型：收到问题 → 直接输出 → 按输出内容计费
深度推理模型：收到问题 → 内部生成大量推理链（你看不到）→ 终于输出 → 按内部推理 + 最终输出全额计费

那个晚上，我看到的"思考中..."其实是模型在内部疯狂生成推理 token，但因为陷入了推理循环，一直没有输出。我以为卡死了，反复刷新重试——每一次重试都触发了新一轮推理，每一轮推理都在全额计费。

我什么都没看到，1200 分已经烧完了。

第二章：扒开账单，找到真正的"性价比之王"

这件事之后，我再也没碰过"自动选模型"。我开始手动切换模型，看看到底哪个适合我。

第一回合：deepseek-v4-flash

5月7日被 glm-5.1 坑完后，当天晚上我切到了 Flash。接下来四天（5/8 ~ 5/11）高强度使用，数据如下：

日期	请求数	总积分	平均单次
5/7 晚	52	272.14	5.23
5/8	31	433.62	13.99
5/9	32	301.63	9.43
5/10	15	105.87	7.06
5/11	126	801.01	6.36

四天半烧掉近 2000 分。比 glm-5.1 好太多——至少能正常输出，不会卡死。但日均 400~800 分的消耗还是太高了。

第二回合：deepseek-v4-pro

5月16日开始尝试 Pro，到这个阶段结束：

日期	请求数	总积分	平均单次
5/25	118	454.46	3.85
5/26	14	83.01	5.93
5/27	55	306.53	5.57
6/3	63	149.17	2.37

同样的请求量，Pro 比 Flash 便宜 40~60%。 同样做一次分卷大纲，Flash 要 7~~10分，Pro 只要 3~~5分。

第三回合：hy3-preview-agent（隐藏的宝藏）

查账单时我注意到另一笔数据——有个叫 hy3-preview-agent 的模型，我可能偶尔切到过一次，但没太在意。它的数据让我大吃一惊：

指标	数值
总请求数	39 次
总积分	29.44 分
平均单次	0.76 分

0.76 分一次。 不到 Pro 的三分之一，不到 Flash 的十分之一，不到 glm-5.1 的七十五分之一。

而且它并不是不能用的模型——日常对话、简单查询、讨论小说剧情，完全够用。只有当我需要生成长篇内容或分析复杂文档时，才切回 Pro。

这成了我现在最常用的组合。

第三章：优化成果——成本下降 86%

把所有数据拉出来看，一条清晰的成本控制曲线呈现出来了：

时间段	日均消耗	平均单次	主要模型
5/7~5/11（踩坑期）	661 分/天	10.77 分	glm-5.1 + Flash
5/16~5/24（过渡期）	17 分/天	1.99 分	Pro（少量使用）
5/25~5/28（稳定期）	218 分/天	4.65 分	Pro（密集使用）
6/3（经济期）	181 分/天	1.79 分	Pro + hy3-agent 混用

从 10.77 分/次到 1.79 分/次，降幅 83%。 从最惨的一天 14 分/次算起的话，降幅 87%。

6月3日的具体数据最能说明问题——101 次请求，总共只花了 181 分：

模型	请求数	总积分	平均单次
deepseek-v4-pro	63	149.17	2.37
hy3-preview-agent	37	29.13	0.79
deepseek-v4-flash	1	2.73	2.73
合计	101	181.03	1.79

而且还有一个意外发现：Flash 和 Pro 的基础单价其实是一样的。 6月3日同一天，Flash 是 2.73 分，Pro 是 2.37 分。Flash 看起来"贵"只是因为它在 5月上旬赶上了我最忙的那几天，对话上下文都很长，不是模型本身贵。

第四章：给新用户的实用建议

经历了这一轮从踩坑到优化的过程，我总结出几条可以复用的经验：

1. 别用 Auto 选模型

Auto 的逻辑是"优先选能力最强的"，而不是"选性价比最高的"。如果被分配到 glm-5.1 这类深度推理模型，一次推理循环就可能吃掉几十甚至上百积分。手动选择模型更安全、更可控。

2. 按任务类型选模型

任务类型	推荐模型	预期单次成本
日常对话、简单查询	hy3-preview-agent	0.5 ~ 1.5 分
常规写作、创作辅助	deepseek-v4-pro	2 ~ 4 分
大型分析、长文档处理	deepseek-v4-pro 或 flash	3 ~ 10 分
不推荐使用的模型	glm-5.1、hy3-preview-o	❌

如果你只想记住一条： 绝大多数场景 hy3-preview-agent 够用。真正需要更强模型时再切到 Pro。

3. 管理对话长度

每次请求的成本 = 输入 token × 单价 + 输出 token × 单价。输入 token 取决于你这场对话已经说了多少。

这意味着：

同一场对话的第 20 轮比第 1 轮贵 5~10 倍
重要/复杂的任务，新开一个对话
如果发现单次成本突然涨了，先看看是不是对话历史太长了

4. 输出格式决定成本

这是我自己踩出来的一个坑：让 AI 生成带图表的 HTML 报告，因为图片用 base64 编码嵌入，单次输出量可能暴涨 50~80 倍，积分也涨同样比例。

确认内容之前，让 AI 输出纯文本或 Markdown 格式
内容确认无误后，再决定是否需要带图表的完整版本

5. 充分利用免费积分

WorkBuddy 目前有多个免费积分渠道：

每日签到（Buddy 加油站）：150 分/天，入口在客户端首页
每月固定额度：500 分/月，所有用户都有
社区投稿：使用心得 500 分/篇，教程 1000 分/篇，月上限 48000 分

按我的用量（hy3 + Pro 混用），一个月大约消耗 3000~4000 分。光靠每日签到（4500 分/月）+ 月额度（500 分）就已经覆盖了，还有盈余。高强度使用的话，写一两篇社区文章也够了。

6. 定期导出账单检查

WorkBuddy 提供了消费导出功能，建议：

每周或每两周导出一份看看
关注两个指标：平均单次消耗 和 消耗最高的模型
如果某个模型的平均消耗突然飙升，检查是不是对话历史太长或模型选错了

结局：从用户变成文章作者

回过头来看，那个烧掉 1200 分的晚上反而成了好事——如果没有那次"事故"，我可能永远不会去深究 WorkBuddy 的消耗机制，也不会发现 hy3-preview-agent 这个宝藏模型。

现在的状态是：每天领 150 免费积分，日常对话用 hy3-agent（0.76 分/次），需要时切 Pro（2~3 分/次），一个月签到的积分完全够用，还常有盈余。

从一个被坑到弃坑的用户，变成了一个主动写文章分享经验的活跃用户——这个过程花了三个星期和一晚上的 1200 分学费。

如果你也刚用 WorkBuddy，建议你先导出账单看看自己用了哪些模型、消耗分布如何。不要等到收到积分告急通知才反应过来。

作者：一位小说创作者 发布时间：2026年6月 数据来源：WorkBuddy 使用记录导出（request-usage 完整版）最后，这篇文章也是workbuddy在帮我分析后帮我创作的，希望官方能够奖励我积分，把我被glm5.1和workbuddy一起坑的一千多没有任何输出的积分再给我一次，我会好好珍惜！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

WorkBuddy

glm

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

WorkBuddy

glm

登录后参与评论

0 条评论

热度