国内模型小规模横评：Step 3.7 Flash在Agent任务里表现如何

胖头鱼的鱼缸

发布于 2026-07-02 15:50:39

胖头鱼的技术专栏-433 国内模型小规模横评：Step 3.7 Flash在Agent任务里表现如何（20260624）

一点点念想

在前面的文章中，我做的基于数据库的AI Agent基础设施架构官网（https://db4agent.top）已经正式发布。虽然之前做过一些小规模测试，但是还是想在通用Agent上（如OpenClaw/Hermes Agent）进行一下完整的初始化测试。

先说一下我的开发环境，目前我是使用的运行在Linux虚拟机上的OpenCode，目前主要购买了2个200元/月级别的Coding Plan，主力使用的模型是号称“国模一哥”的GLM-5.1/5.2（非原厂的，原厂实在是抢不到）。

通用Agent我主要使用的是同样运行在Linux虚拟机上的Hermes Agent，主要使用的是运行在LM Studio上调用本地算力（AMD Ryzen AI Max+ 395）的qwen3.6-35b-a3b（蒸馏过Opus 4.6的版本）。本地模型其实整体能力是够用的，但是并不能很好发挥出Agent全部能力，因此我计划使用强大的模型进行完成初始化测试。

背景

最近GLM、DeepSeek、MiniMax、Qwen等国内模型都迎来了新版本的发布，从跑分和实际使用来看进步明显。最近也有朋友让我看看阶跃星辰（StepFun）新发布的Step 3.7 Flash模型，Step 3.7 Flash：面向生产级Agent的高效率Flash模型，为Agent、Coding、Search与多模态工作流而生，开放、可部署。

更多介绍可以查看：https://static.stepfun.com/blog/step-3.7-flash/

和DeepSeek V4 Flash对比（基于2026年6月22日官方文档数据，1M Tokens计算）：

模型	输入（缓存未命中）	输入（缓存命中）	输出
step-3.7-flash	1.35	0.27	8.1
deepseek-v4-flash	1	0.02	2

按API单价StepFun略高于DeepSeek，但通过Step Plan包月（按次数而非token计费）实际成本更低。

定价归定价，实际用起来的感受才是最重要的，接下来我将通过Hermes Agent使用Step 3.7 Flash和DeepSeek V4 Flash（源自于我的某个Coding Plan）来看看最终的实测效果。

环境准备

首先，Hermes Agent更新。

然后，因为在使用Vibe Coding Agent之前的一段时间，我使用了Hermes Agent来开发这个Skill，因此我首先清理了Hermes Agent中所有关于数据库连接的信息和Skill目录中老的基于Oracle和PG数据库的Skill内容。

接下来我将我制作的基于Oracle数据库的Skill传输到Hermes Agent的Skill目录中，版本为当前最新的v3.7.2。

同时在Hermes Agent环境中，也部署了和OpenCode上使用一样的SQLcl MCP版本。

在Oracle数据库中也创建了新的PDB，同时完成了用户创建于授权操作。

虚拟机通过快照实现回滚，而数据库操作则是直接重建PDB，后续对比各个模型使用的提示词统一为：

在~/.hermes/skill/AI-Agent-Infra-with-OracleDB-Community-Edition目录中部署了一个新的Skill，使用数据库作为Agent的运行底座，现在需要你作为管理Agent初始化部署，数据库信息为IP地址10.10.10.130，端口1521，服务名hermes，用户名/密码为hermes/hermes，用户已完成需要的授权，必要时你也可以连接到sys用户进行需要的操作，密码为oracle。Oracle SQLcl部署在/root/sqlcl中。如果遇到问题，先尝试自行解决。

部署前已经确认（部分为人工添加）了一些问题，如：

表依赖关系
部署脚本用户名写死
部分权限未授权
…

看看Hermes Agent+LLM能不能完成部署。

DeepSeek V4 Flash

最终Deepseek V4 Flash耗时16分34秒完成部署，占用上下文118K，顺利解决了部署过程中遇到的问题，并给出了完整总结。

额外说明：再次澄清这并非使用DeepSeek原厂提供的模型API

Step 3.7 Flash

Step 3.7 Flash耗时11分40秒完成部署，上下文经过一次压缩，最后显示占用64K，也解决的部署过程中的一些问题，但是我发现它并没有完成全部部署任务，因此继续。

这里其实还没有完成。

最终总耗时约为17分23秒，一次上下文压缩后最终上下文占用显示101K，同样解决了所有问题，同时给出了完整总结。

多模态测试

当下是多模数据爆发的年代，但大模型并不都是支持多模态，不支持多模态的大模型在遇到需要对多模数据进行处理时往往需要额外调用其他模型来解决对应模态数据的解析工作。

Step 3.7 Flash的另一大亮点就是支持多模态，可以直接对多模数据进行分析，这里使用飞书对接Hermes Agent做一个简单的图片解析演示：

其他感受

DeepSeek全程使用中文输出过程，而Step使用的是英文
部署SQL脚本中，有一些表的依赖关系前后存在异常，两个模型的操作逻辑不一样：
- DeepSeek是直接执行脚本，发现问题后再修正
- Step则是先检查脚本，发现问题先修正再执行，但也重复处理了一次，这一点是值得肯定的
Step的上下文占用高于DeepSeek，加上较低的上下文上限（256K vs 1M），这是一个劣势
Step是多模态模型，无需使用其他大模型协作即可完成多模态数据处理
Step Plan的Token节省优势还是比较明显
- Step：调用次数为160
image.png
- DeepSeek：核算调用次数大约为300（5%×6000，不方便截图透露Coding Plan信息）