拼Agent效果,大家总在死磕Prompt或频繁换模型。但行业内真正拉开差距的,是包裹在LLM外面的软件基础设施,也就是Harness。
如果把LLM看作CPU,Context就是内存,外部工具是驱动。而Harness就是那个操作系统,负责编排循环、管理状态、调用工具和纠错。同样一个LLM,换个更合理的Harness架构,任务通关率能直接翻倍。
这里有个反直觉的深度认知:Harness其实是临时的脚手架。行业正在走向“协同进化”——模型本身越强,Harness应该变得越薄。
评估一个Harness好坏的终极标准是:当底层模型升级时,你不需要把Harness堆得更复杂,Agent性能就能跟着自动飙升。所以别只盯着模型,多看看外面的马具。
x.com/akshay_pachaar/status/2041146899319971922