首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >从Auto模型被坑到手动选模型的血泪史

从Auto模型被坑到手动选模型的血泪史

原创
作者头像
用户12490485
发布2026-06-03 10:46:19
发布2026-06-03 10:46:19
1620
举报

从 Auto 模型被坑到手动选模型:一个小说作者用 WorkBuddy 的积分血泪史

一个晚上烧掉 1200 积分,却什么都没看到——这是我和 WorkBuddy 故事的开始。


引子:我以为 WorkBuddy 就是个坑

2026年5月初,我刚开始用 WorkBuddy。我是个写小说的作者,日常就是和 AI 聊天讨论剧情设计、生成分卷大纲、偶尔让它帮我分析文档。不是什么程序员,也不跑代码,按理说用量不会太大。

注册进去,WorkBuddy 默认是"Auto 自动选模型"。我觉得挺好,让它自己选吧,专业的事交给专业的工具。

结果5月7日凌晨,我像往常一样问了一个小说相关的问题。AI 显示"思考中...",等了很久没有输出。我以为卡死了,刷新,重试,再问一次——还是没输出。断断续续折腾了两个多小时,什么结果都没看到,气得关机上床。

第二天一看积分余额,傻眼了。

一个晚上烧掉了 1200 多积分。

我第一反应是:WorkBuddy 就是来圈钱的吧?一个聊天工具至于吗?准备弃坑。

但冷静下来之后,我决定查清楚——它到底把积分花在哪儿了。


第一章:导出账单,我看到了一组可怕的数据

WorkBuddy 提供了使用记录导出功能,我下载了一份完整的 Excel 账单。到手时没当回事,但仔细一看,问题全暴露了。

先看一组总数据:

指标

数值

时间跨度

5月7日 ~ 6月3日(28天)

总请求数

631 次

总积分消耗

4431.70 分

平均单次消耗

7.02 分

最高单次消耗

183.58 分

平均 7 分一次,最高 183 分——一个写小说的聊天,怎么可能?我把数据按模型拆开看,答案一下就清晰了。

模型消耗排名(按总积分降序)

模型

请求数

总积分

占比

平均单次

glm-5.1

25

1207.38

27.2%

57.27 分

deepseek-v4-flash

257

1917.00

43.2%

7.46 分

deepseek-v4-pro

278

1080.23

24.3%

3.89 分

hy3-preview-o

19

173.80

3.9%

9.15 分

hy3-preview-agent

39

29.44

0.7%

0.76 分

minimax-m2.7

10

12.96

0.3%

1.30 分

auto-pro

3

10.89

0.2%

3.63 分

glm-5.1,25 次请求,吃掉 1207 分。 它只占所有请求的 4%,却占了总积分的 27%。最高一次单次 183.58 分——相当于我后来用 hy3-preview-agent 的 240 次对话。

那 25 次请求里,有 21 次发生在 5月7日凌晨的 00:06 ~ 02:26,恰好就是我觉得"卡死了"然后反复提交的那两个小时。看一下时间序列就明白了:

消耗金额一路攀升:25 → 43 → 65 → 93 → 150 → 160 → 183。这不是偶然的波动,这是模型每次重新推理时,对话上下文越积累越大,成本越来越高。

为什么 Auto 模型选到了 glm-5.1?

后来我才知道,glm-5.1 是一种"深度推理模型"。它和普通对话模型的工作方式完全不同:

  • 普通模型:收到问题 → 直接输出 → 按输出内容计费
  • 深度推理模型:收到问题 → 内部生成大量推理链(你看不到)→ 终于输出 → 按内部推理 + 最终输出全额计费

那个晚上,我看到的"思考中..."其实是模型在内部疯狂生成推理 token,但因为陷入了推理循环,一直没有输出。我以为卡死了,反复刷新重试——每一次重试都触发了新一轮推理,每一轮推理都在全额计费。

我什么都没看到,1200 分已经烧完了。


第二章:扒开账单,找到真正的"性价比之王"

这件事之后,我再也没碰过"自动选模型"。我开始手动切换模型,看看到底哪个适合我。

第一回合:deepseek-v4-flash

5月7日被 glm-5.1 坑完后,当天晚上我切到了 Flash。接下来四天(5/8 ~ 5/11)高强度使用,数据如下:

日期

请求数

总积分

平均单次

5/7 晚

52

272.14

5.23

5/8

31

433.62

13.99

5/9

32

301.63

9.43

5/10

15

105.87

7.06

5/11

126

801.01

6.36

四天半烧掉近 2000 分。比 glm-5.1 好太多——至少能正常输出,不会卡死。但日均 400~800 分的消耗还是太高了。

第二回合:deepseek-v4-pro

5月16日开始尝试 Pro,到这个阶段结束:

日期

请求数

总积分

平均单次

5/25

118

454.46

3.85

5/26

14

83.01

5.93

5/27

55

306.53

5.57

6/3

63

149.17

2.37

同样的请求量,Pro 比 Flash 便宜 40~60%。 同样做一次分卷大纲,Flash 要 710分,Pro 只要 35分。

第三回合:hy3-preview-agent(隐藏的宝藏)

查账单时我注意到另一笔数据——有个叫 hy3-preview-agent 的模型,我可能偶尔切到过一次,但没太在意。它的数据让我大吃一惊:

指标

数值

总请求数

39 次

总积分

29.44 分

平均单次

0.76 分

0.76 分一次。 不到 Pro 的三分之一,不到 Flash 的十分之一,不到 glm-5.1 的七十五分之一。

而且它并不是不能用的模型——日常对话、简单查询、讨论小说剧情,完全够用。只有当我需要生成长篇内容或分析复杂文档时,才切回 Pro。

这成了我现在最常用的组合。


第三章:优化成果——成本下降 86%

把所有数据拉出来看,一条清晰的成本控制曲线呈现出来了:

时间段

日均消耗

平均单次

主要模型

5/7~5/11(踩坑期)

661 分/天

10.77 分

glm-5.1 + Flash

5/16~5/24(过渡期)

17 分/天

1.99 分

Pro(少量使用)

5/25~5/28(稳定期)

218 分/天

4.65 分

Pro(密集使用)

6/3(经济期)

181 分/天

1.79 分

Pro + hy3-agent 混用

从 10.77 分/次 到 1.79 分/次,降幅 83%。 从最惨的一天 14 分/次 算起的话,降幅 87%。

6月3日的具体数据最能说明问题——101 次请求,总共只花了 181 分:

模型

请求数

总积分

平均单次

deepseek-v4-pro

63

149.17

2.37

hy3-preview-agent

37

29.13

0.79

deepseek-v4-flash

1

2.73

2.73

合计

101

181.03

1.79

而且还有一个意外发现:Flash 和 Pro 的基础单价其实是一样的。 6月3日同一天,Flash 是 2.73 分,Pro 是 2.37 分。Flash 看起来"贵"只是因为它在 5月上旬赶上了我最忙的那几天,对话上下文都很长,不是模型本身贵。


第四章:给新用户的实用建议

经历了这一轮从踩坑到优化的过程,我总结出几条可以复用的经验:

1. 别用 Auto 选模型

Auto 的逻辑是"优先选能力最强的",而不是"选性价比最高的"。如果被分配到 glm-5.1 这类深度推理模型,一次推理循环就可能吃掉几十甚至上百积分。手动选择模型更安全、更可控。

2. 按任务类型选模型

任务类型

推荐模型

预期单次成本

日常对话、简单查询

hy3-preview-agent

0.5 ~ 1.5 分

常规写作、创作辅助

deepseek-v4-pro

2 ~ 4 分

大型分析、长文档处理

deepseek-v4-pro 或 flash

3 ~ 10 分

不推荐使用的模型

glm-5.1、hy3-preview-o

如果你只想记住一条: 绝大多数场景 hy3-preview-agent 够用。真正需要更强模型时再切到 Pro。

3. 管理对话长度

每次请求的成本 = 输入 token × 单价 + 输出 token × 单价。输入 token 取决于你这场对话已经说了多少。

这意味着:

  • 同一场对话的第 20 轮比第 1 轮贵 5~10 倍
  • 重要/复杂的任务,新开一个对话
  • 如果发现单次成本突然涨了,先看看是不是对话历史太长了

4. 输出格式决定成本

这是我自己踩出来的一个坑:让 AI 生成带图表的 HTML 报告,因为图片用 base64 编码嵌入,单次输出量可能暴涨 50~80 倍,积分也涨同样比例。

  • 确认内容之前,让 AI 输出纯文本或 Markdown 格式
  • 内容确认无误后,再决定是否需要带图表的完整版本

5. 充分利用免费积分

WorkBuddy 目前有多个免费积分渠道:

  • 每日签到(Buddy 加油站):150 分/天,入口在客户端首页
  • 每月固定额度:500 分/月,所有用户都有
  • 社区投稿:使用心得 500 分/篇,教程 1000 分/篇,月上限 48000 分

按我的用量(hy3 + Pro 混用),一个月大约消耗 3000~4000 分。光靠每日签到(4500 分/月)+ 月额度(500 分)就已经覆盖了,还有盈余。高强度使用的话,写一两篇社区文章也够了。

6. 定期导出账单检查

WorkBuddy 提供了消费导出功能,建议:

  • 每周或每两周导出一份看看
  • 关注两个指标:平均单次消耗消耗最高的模型
  • 如果某个模型的平均消耗突然飙升,检查是不是对话历史太长或模型选错了

结局:从用户变成文章作者

回过头来看,那个烧掉 1200 分的晚上反而成了好事——如果没有那次"事故",我可能永远不会去深究 WorkBuddy 的消耗机制,也不会发现 hy3-preview-agent 这个宝藏模型。

现在的状态是:每天领 150 免费积分,日常对话用 hy3-agent(0.76 分/次),需要时切 Pro(2~3 分/次),一个月签到的积分完全够用,还常有盈余。

从一个被坑到弃坑的用户,变成了一个主动写文章分享经验的活跃用户——这个过程花了三个星期和一晚上的 1200 分学费。

如果你也刚用 WorkBuddy,建议你先导出账单看看自己用了哪些模型、消耗分布如何。不要等到收到积分告急通知才反应过来。


作者:一位小说创作者 发布时间:2026年6月 数据来源:WorkBuddy 使用记录导出(request-usage 完整版) 最后,这篇文章也是workbuddy在帮我分析后帮我创作的,希望官方能够奖励我积分,把我被glm5.1和workbuddy一起坑的一千多没有任何输出的积分再给我一次,我会好好珍惜!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 从 Auto 模型被坑到手动选模型:一个小说作者用 WorkBuddy 的积分血泪史
    • 引子:我以为 WorkBuddy 就是个坑
    • 第一章:导出账单,我看到了一组可怕的数据
      • 模型消耗排名(按总积分降序)
      • 为什么 Auto 模型选到了 glm-5.1?
    • 第二章:扒开账单,找到真正的"性价比之王"
      • 第一回合:deepseek-v4-flash
      • 第二回合:deepseek-v4-pro
      • 第三回合:hy3-preview-agent(隐藏的宝藏)
    • 第三章:优化成果——成本下降 86%
    • 第四章:给新用户的实用建议
      • 1. 别用 Auto 选模型
      • 2. 按任务类型选模型
      • 3. 管理对话长度
      • 4. 输出格式决定成本
      • 5. 充分利用免费积分
      • 6. 定期导出账单检查
    • 结局:从用户变成文章作者
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档