Agent是一个大loop

春哥大魔王

发布于 2026-06-05 17:35:46

1880

Claude Code作者说过一句话：我不再给Claude写prompt了，我有一堆loop在跑，我的工作是写loop。

Claude Code的动态工作流，让Claude能够按任务即时编写自己的Harness，用JavaScript编排subAgents/模型路由/worktree隔离/验证循环和可恢复执行，从而更适合长任务/并行任务/对抗验证和非编码类复杂任务。

Agent是一个大loop，组装上下文，调用LLM，运行Bash，读写文件，回填上下文，继续推理。

这个循环可能要跑几十轮，跨越十几分钟到几十分钟，这个过程需要记录完整会话事件，在模型出错时/工具失败时/容器崩溃时继续工作。

如果是一个多租户的Agent平台，每个Agent都是一个独立的项目，数据要隔离/计算要隔离/计费也要隔离/出问题了不能互相影响。

同时平台运营成本还要尽量的低。

一个Agent执行过程，可能要跑几十轮LLM调用，启动多个Sandbox，产生大量临时文件和日志。

如果Sandbox长期保活，会话和运行所产生的文件在存储层面没有冷热分层，一次任务的运行成本就容易失控。

所以从成本可控角度来说，agent平台需要在几个维度上做到按需付费：

1.计算按需付费：Sandbox和应用运行时都要能秒级冷启动，空闲时归零，而不是7x24小时占着资源；

2.存储分层：高频的绘画，记忆都放在在线数据库中，低频的运行期文件产物数据放在对象存储；

3.生命周期管理：会话日志，Sandbox快找，构建产物这类临时数据要能自动过期归档，否则存量会随着用户量线性膨胀，最终被存储和宽带费用反噬；

这便是一套Agent基础设施能力：

云平台非常容易切换到Agent基础设施，比如云平台已经具备了完整的Serverless资源管理能力，包括身份认证/数据库/云函数与容器/文件存储/web应用托管等能力，云平台把已有的Serverless/Baas/托管/多租户/权限重新组织便可成为新的Agent基础设施。

Agent Loop负责编排模型与工具；

Sandbox执行不可信代码；

Session记录会话事件和状态；

敏感操作通过MCP Proxy/控制面API/临时凭证完成；

将Agent执行所需的数据库/身份认证/云存储/云函数/静态托管/容器托管/https访问能力进行封装，让Agent通过MCP调用工具的方式调用。

这样边界相互独立，避免将模型推理和Agent执行，平台能力杂糅在一起。

最终Agent平台是一套平台承载多个上层Agent应用，一套平台包含了Agent Loop/Sandbox/模型推理，多个上层Agent应用则有自己的环境/独立的数据/计算/存储/可访问边界/按量计费的集成平台。

比如在平台上可以通过提示词完成Agent的开发与部署上线。

每个Agent应用都会生成所需的后端代码，创建一份独立的云数据库实例，数据在租户维度天然隔离，平台无需在应用层写一遍多租户逻辑。Agent应用可以通过MCP直接声明数据模型并写入测试数据。

平台内部内置了多种鉴权方式，用户不需要自己重新做一套登陆/鉴权/身份认证系统，应用从第一行代码就自带账户体系。

平台将数据库/云函数/云存储/静态托管/容器托管等后端资源全部包成MCP工具，并沉淀了一批可复用的Skill，这可以让Agent应用开发效率与工程质量极大提升。

用Agent的视角重新设计云平台，Brain/Hands分离运行时，声明式的MCP工具，一租户一环境的多租户模型，为长尾应用而生的Serverless计费都是需要的。

以下为关键的Agent基础设施体系，multi-Agent，mcp/rag/cache/模式/可观测性/评测提示/安全体系。

基础依赖层：关注模型/知识/工具/skill底层能力的支持，结合MCP协议将接口转化为MCP。

Agent层/意图层/会话层：意图层负责多意图识别与query改写，会话层重点关注上下文工程，比如多轮会话及长短期记忆能力。Agent层负责固定流程与ReActAgent/PlanAgent的构建与Multi-Agent协同。

质量与稳定性管理：包括AI可观测/AI评测/Agent安全三大模块，保障系统可用性SLA。

ReAct到Multi-Agent：分布式自主决策，ReAct范式是通过Thought-Action-Observation的循环工作，单步思考更擅长解决理性类问题，由Plan产出全局计划，由ReAct执行细分领域的推理。

而Multi-Agent则可以视为一个中心化决策模型，将任务细分为多领域子Agent，每个领域Agent采用ReAct&Plan范式的Agent负责，由中心化的Agent统一做意图识别与任务分发，形成MOE形态。

未来需要面向Agent设计工具，原有的Restful接口逻辑需要改造为AI Friendly API，比如工具原子接口改造适用于Agent推理过程选择，工具入参改造，接口拟人化出入参尽量KV平铺，仅保留核心字段。对于Error处理，预期内的error提供简短描述便于模型推理决策，预期外的error，提供堆栈信息便于模型识别原因。

Agent整个loop需要提供可观测/可审计的能力，涵盖了从数据集采集-管理-评测全流程。

线上数据采样--样本集构建--自动/人工评测--工具优化/模型微调--线上ABtest--指标观测的闭环。

可观测能力可以采用传统监控机制，比如鹰眼/SkyWalking等看到服务延迟与错误率，AI的可观测则需要深入到LLM或Agent层面，关注Agent的执行路径/首token响应时间/token消耗与成本/tpm等。