day1,写几个观点,先了解一个趋势,辅助未来一两年的决策。
AI已经从概率的直觉响应进入到逻辑思维的因果推演,这一转型推动大模型及周边应用技术演进。生活中常用的大模型工具虽然进一步很大,但是让人感受更多多的是其出色的“语感机器”。也就是说,大模型依托海量文本数据训练,学会了直觉式的反馈问题的答案,模型的进步带来的感观上的提出越来越小,更多是一次性回答更加准确,对话更加流畅,更丰富的文本生成与摘要总结。这种基于概率统计的模式,在日常办公、内容创作等容错率较高的场景中表现亮眼,但在SRE运维保障等对准确性和确定性要求极高的领域瓶颈十分明显。
这类概率驱动型AI的核心局限的是一个黑盒子,出现知其然,而不知其所以然。相比于豆包、gemini等2c客户端,Agent应用中更能体验到大模型的进步。Agent应用需要强大的逻辑推理能力,基模不再仅依赖数据表面的关联关系,而是引入了类似专家的因果推演能力,分析问题根源,实现从预测到逻辑分析的升级。
OpenAI借鉴自动驾驶分级逻辑,提出的AGI五级标准,其量化了AI的能力进化程度。OpenAI这个5级分类具有比较好的解释性,当然也有人认为这5级在企业发展过程中存在交叉的问题。
当前,Agent的平台与应用爆发,模型正处于从L1、L2到L3的密集跃迁期,其中L1→L2的逻辑闭环、L2→L3的执行闭环。这个过程,需要运维组织思考如何基于模型的升级,去应用适配SRE运维保障场景的关键突破,落地AI在核心运维中的应用价值。
从L1到L2的升级,告诉AI应用场景不再是追求快,而是要更加准确和可解释性。也就是说要让AI掌握慢思考能力,摆脱了直觉式响应的局限,具备了严谨的因果分析。比如对于系统请求延迟的监控街区,L1模型主要是解读告警表面语义,针对知识库快速得出建议资源扩容。而L2模型则会将问题作为一个未知问题,去采用逻辑推演,尝试定位性能不足的根因,例如,将延迟的根因分析为是否变更发布后的数据库索引、程序版本、网络带宽等,然后再提供应急决策。L2这种因果分析能力,是L1模型无法应对的确定性需求。
从 L2到L3的升级,是 AI 拥有了行动能力,不再局限于分析根因、给出建议,而是能自主落地执行运维操作。区别于API调用的操作方式,Claude已经演变为超级终端,其“Computer Use”,让电脑自动操控功能,让AI具备自主操作终端(打开应用、操控键鼠、运行工具、处理文件等)的能力,是AI从L2向L3跃迁的关键体现。同理到运维领域,将发现监控异常、查看日志与链路、定位 Bug、执行应急止损、观测修复等全流程的运维操作,实现思考到行动的闭环。
在L2中强调了推理能力,什么是推理能力呢?其关注AI处理陌生、复杂、长链条逻辑时的能力,比如:
另外以OpenAI的o1与o3区别,其主要是在推理中采用思维链方式。思维链的方式适合复杂SRE场景中,这种“慢思考”是规避级联故障的方案。比如,交易系统订单响应延迟报警出现,o1模型就会像一个手持应急操作值班员工,他直接命中“应用响应慢”关键词,给出建议:“通常是因为连接数不足或CPU过载,请尝试扩容数据库连接池。”的应急预案。这种直觉式反应因为忽略了严谨的因果推导,可能会导致更大的故障伤口。比如,如果此时根因是磁盘I/O达到瓶颈,扩大连接数可能会引入更多并发请求,彻底压垮I/O,导致系统全站宕机。思维链的“慢思考”,是在输出建议前,会在后台运行一段隐性思维链,比如:获取可观测的性能指标数据观察与排除,检索近期变更的间接原因分析, 再收集更多数据进行多维验证,最后才是决策可能并非连接数不足问题,而是因为变更后引入低效sql,可能通过为低效SQL增加索引解决问题,而非盲目扩容数据库。
五、智能运维慢了半拍,先关注从L1.5至L2.0
当前AIOps的核心痛点,在于其并未真正达到L2级别,而是处于L1.5的中间过渡状态:虽能基于现有信息完成基础分析推理、数据统计及总结输出,但未达到L2级模型应有的严谨性,缺乏核心的因果推断能力。以监控告警场景为例,模型虽能围绕告警信息开展分析总结,却无法精准追溯故障根因,既不能独立承担排障任务,更难以在生产环境中直接落地执行,陷入“食之无味、弃之可惜”的尴尬困境。短期来看,突破这一瓶颈的关键的是以逻辑推理为基础,重构运维SOP体系,将运维专家积累的SOP流程与实操经验,通过MD文档或小模型决策树进行结构化梳理,转化为AI可识别的逻辑约束,推动模型实现从“观测告警”到“根因分析”的相对确定性跨越。在完成从L1.5到L2的进阶,再进一步衔接L3级执行闭环,实现运维操作的自动化落地。