

在前面的文章中,我做的基于数据库的AI Agent基础设施架构官网(https://db4agent.top)已经正式发布。虽然之前做过一些小规模测试,但是还是想在通用Agent上(如OpenClaw/Hermes Agent)进行一下完整的初始化测试。
先说一下我的开发环境,目前我是使用的运行在Linux虚拟机上的OpenCode,目前主要购买了2个200元/月级别的Coding Plan,主力使用的模型是号称“国模一哥”的GLM-5.1/5.2(非原厂的,原厂实在是抢不到)。
通用Agent我主要使用的是同样运行在Linux虚拟机上的Hermes Agent,主要使用的是运行在LM Studio上调用本地算力(AMD Ryzen AI Max+ 395)的qwen3.6-35b-a3b(蒸馏过Opus 4.6的版本)。本地模型其实整体能力是够用的,但是并不能很好发挥出Agent全部能力,因此我计划使用强大的模型进行完成初始化测试。
最近GLM、DeepSeek、MiniMax、Qwen等国内模型都迎来了新版本的发布,从跑分和实际使用来看进步明显。最近也有朋友让我看看阶跃星辰(StepFun)新发布的Step 3.7 Flash模型,Step 3.7 Flash:面向生产级Agent的高效率Flash模型,为Agent、Coding、Search与多模态工作流而生,开放、可部署。
更多介绍可以查看:https://static.stepfun.com/blog/step-3.7-flash/
和DeepSeek V4 Flash对比(基于2026年6月22日官方文档数据,1M Tokens计算):
模型 | 输入(缓存未命中) | 输入(缓存命中) | 输出 |
|---|---|---|---|
step-3.7-flash | 1.35 | 0.27 | 8.1 |
deepseek-v4-flash | 1 | 0.02 | 2 |
按API单价StepFun略高于DeepSeek,但通过Step Plan包月(按次数而非token计费)实际成本更低。


定价归定价,实际用起来的感受才是最重要的,接下来我将通过Hermes Agent使用Step 3.7 Flash和DeepSeek V4 Flash(源自于我的某个Coding Plan)来看看最终的实测效果。
首先,Hermes Agent更新。

然后,因为在使用Vibe Coding Agent之前的一段时间,我使用了Hermes Agent来开发这个Skill,因此我首先清理了Hermes Agent中所有关于数据库连接的信息和Skill目录中老的基于Oracle和PG数据库的Skill内容。

接下来我将我制作的基于Oracle数据库的Skill传输到Hermes Agent的Skill目录中,版本为当前最新的v3.7.2。

同时在Hermes Agent环境中,也部署了和OpenCode上使用一样的SQLcl MCP版本。

在Oracle数据库中也创建了新的PDB,同时完成了用户创建于授权操作。
虚拟机通过快照实现回滚,而数据库操作则是直接重建PDB,后续对比各个模型使用的提示词统一为:
在~/.hermes/skill/AI-Agent-Infra-with-OracleDB-Community-Edition目录中部署了一个新的Skill,使用数据库作为Agent的运行底座,现在需要你作为管理Agent初始化部署,数据库信息为IP地址10.10.10.130,端口1521,服务名hermes,用户名/密码为hermes/hermes,用户已完成需要的授权,必要时你也可以连接到sys用户进行需要的操作,密码为oracle。Oracle SQLcl部署在/root/sqlcl中。如果遇到问题,先尝试自行解决。
部署前已经确认(部分为人工添加)了一些问题,如:
看看Hermes Agent+LLM能不能完成部署。


最终Deepseek V4 Flash耗时16分34秒完成部署,占用上下文118K,顺利解决了部署过程中遇到的问题,并给出了完整总结。
额外说明:再次澄清这并非使用DeepSeek原厂提供的模型API


Step 3.7 Flash耗时11分40秒完成部署,上下文经过一次压缩,最后显示占用64K,也解决的部署过程中的一些问题,但是我发现它并没有完成全部部署任务,因此继续。


这里其实还没有完成。


最终总耗时约为17分23秒,一次上下文压缩后最终上下文占用显示101K,同样解决了所有问题,同时给出了完整总结。
当下是多模数据爆发的年代,但大模型并不都是支持多模态,不支持多模态的大模型在遇到需要对多模数据进行处理时往往需要额外调用其他模型来解决对应模态数据的解析工作。
Step 3.7 Flash的另一大亮点就是支持多模态,可以直接对多模数据进行分析,这里使用飞书对接Hermes Agent做一个简单的图片解析演示:


本期通过使用我制作的基于数据库的AI Agent基础设施架构,对比DeepSeek V4 Flash和Step 3.7 Flash,作为后起之秀的阶跃星辰,虽然没有全面赶超前辈,但在多模和Token成本上还是有不小优势。
本次测试还有件事就是去修我的Skill了!
老规矩,知道写了些啥。