首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >1.AI演进:从概率预测到逻辑因果

1.AI演进:从概率预测到逻辑因果

作者头像
彭华盛
发布2026-06-19 08:33:18
发布2026-06-19 08:33:18
600
举报
文章被收录于专栏:运维之路运维之路

day1,写几个观点,先了解一个趋势,辅助未来一两年的决策。

1、从直觉响应转向严谨的因果推演

AI已经从概率的直觉响应进入到逻辑思维的因果推演,这一转型推动大模型及周边应用技术演进。生活中常用的大模型工具虽然进一步很大,但是让人感受更多多的是其出色的“语感机器”。也就是说,大模型依托海量文本数据训练,学会了直觉式的反馈问题的答案,模型的进步带来的感观上的提出越来越小,更多是一次性回答更加准确,对话更加流畅,更丰富的文本生成与摘要总结。这种基于概率统计的模式,在日常办公、内容创作等容错率较高的场景中表现亮眼,但在SRE运维保障等对准确性和确定性要求极高的领域瓶颈十分明显。

这类概率驱动型AI的核心局限的是一个黑盒子,出现知其然,而不知其所以然。相比于豆包、gemini等2c客户端,Agent应用中更能体验到大模型的进步。Agent应用需要强大的逻辑推理能力,基模不再仅依赖数据表面的关联关系,而是引入了类似专家的因果推演能力,分析问题根源,实现从预测到逻辑分析的升级。

二、理解模型发展的路线有助于智能运维建设的阶段性决策

OpenAI借鉴自动驾驶分级逻辑,提出的AGI五级标准,其量化了AI的能力进化程度。OpenAI这个5级分类具有比较好的解释性,当然也有人认为这5级在企业发展过程中存在交叉的问题。

  • L1: Chatbots(对话级):边界在于流畅性,能听懂人类指令、撰写总结、生成文本摘要,其更多的是概率驱动的直觉反应。比如运维领域的知识库、日志表面意义解读等日常办公,难以承担复杂运维决策任务。
  • L2: Reasoners(推理者):关注解题能力,具备严谨的逻辑思维,能处理未知的复杂问题。与L1模型最大的区别是“慢思考”,通过内部思维链进行自我校验、因果推演,确保输出结论有迹可循。现在国内比较火的GLM-5,千问3.5,kimi2.5都具备L2所需的逻辑一致性、自我纠错推理特征,其接近L2的天花版接近到L3的门槛。
  • L3: Agents(代理级):核心边界在于“自主性”,除了逻辑推理以外,还能够执行工具调用、自主规划、执行闭环。即不仅能想出解决方案,还能自主在系统或终端执行操作、观察反馈并修正结果,具备跨越数天的任务续航力,实现思考与行动的闭环。
  • L4: Innovators(创新者):能够辅助人类创造新知识、新方案,突破现有技术边界,为应用场景创新提供基础。
  • L5: Organizations(组织者):AGI 的终极形态,能像完整团队一样自主运行,统筹各项运维任务,实现全流程自主决策、自主执行,彻底替代人工完成核心运维工作。

三、AI行业正在聚焦从L2到L3之间的升级

当前,Agent的平台与应用爆发,模型正处于从L1、L2到L3的密集跃迁期,其中L1→L2的逻辑闭环、L2→L3的执行闭环。这个过程,需要运维组织思考如何基于模型的升级,去应用适配SRE运维保障场景的关键突破,落地AI在核心运维中的应用价值。

从L1到L2的升级,告诉AI应用场景不再是追求快,而是要更加准确和可解释性。也就是说要让AI掌握慢思考能力,摆脱了直觉式响应的局限,具备了严谨的因果分析。比如对于系统请求延迟的监控街区,L1模型主要是解读告警表面语义,针对知识库快速得出建议资源扩容。而L2模型则会将问题作为一个未知问题,去采用逻辑推演,尝试定位性能不足的根因,例如,将延迟的根因分析为是否变更发布后的数据库索引、程序版本、网络带宽等,然后再提供应急决策。L2这种因果分析能力,是L1模型无法应对的确定性需求。

从 L2到L3的升级,是 AI 拥有了行动能力,不再局限于分析根因、给出建议,而是能自主落地执行运维操作。区别于API调用的操作方式,Claude已经演变为超级终端,其“Computer Use”,让电脑自动操控功能,让AI具备自主操作终端(打开应用、操控键鼠、运行工具、处理文件等)的能力,是AI从L2向L3跃迁的关键体现。同理到运维领域,将发现监控异常、查看日志与链路、定位 Bug、执行应急止损、观测修复等全流程的运维操作,实现思考到行动的闭环。

四、推理与思维链是升级背后的设计逻辑

在L2中强调了推理能力,什么是推理能力呢?其关注AI处理陌生、复杂、长链条逻辑时的能力,比如:

  • 逻辑一致性:在分析问题时,AI需保持逻辑闭环,不出现自相矛盾的判断。例如,第一步判定故障为网络延迟,后续就不能无证据跳转至硬件损坏,需严密咬合每一个因果链条,确保结论是推理分析出来的。
  • 自我纠错与路径回溯:比如功能出问题让AI分析原因时,AI先分析某一段代码问题并完成构建、发布、重启,但检查时发现问题依然存在,其需要能够主动推翻原有判断,返回逻辑分叉点重新分析,并进入下一个解决闭环。这种纠错在一定程度上,有助于问题的更加准确的定位。
  • 泛化应对“黑天鹅”能力:推理的核心是掌握底层底层原理,而非背诵训练案例。推理能力虽然重要,但在运维中,推理必须基于最新的“拓扑结构”和“变更日志”。逻辑是骨架,实时数据是血肉。才能实现即便面对从未见过的生产问题,也能基于通用规则推导出故障点,适配各类突发运维场景。

另外以OpenAI的o1与o3区别,其主要是在推理中采用思维链方式。思维链的方式适合复杂SRE场景中,这种“慢思考”是规避级联故障的方案。比如,交易系统订单响应延迟报警出现,o1模型就会像一个手持应急操作值班员工,他直接命中“应用响应慢”关键词,给出建议:“通常是因为连接数不足或CPU过载,请尝试扩容数据库连接池。”的应急预案。这种直觉式反应因为忽略了严谨的因果推导,可能会导致更大的故障伤口。比如,如果此时根因是磁盘I/O达到瓶颈,扩大连接数可能会引入更多并发请求,彻底压垮I/O,导致系统全站宕机。思维链的“慢思考”,是在输出建议前,会在后台运行一段隐性思维链,比如:获取可观测的性能指标数据观察与排除,检索近期变更的间接原因分析, 再收集更多数据进行多维验证,最后才是决策可能并非连接数不足问题,而是因为变更后引入低效sql,可能通过为低效SQL增加索引解决问题,而非盲目扩容数据库。

五、智能运维慢了半拍,先关注从L1.5至L2.0

当前AIOps的核心痛点,在于其并未真正达到L2级别,而是处于L1.5的中间过渡状态:虽能基于现有信息完成基础分析推理、数据统计及总结输出,但未达到L2级模型应有的严谨性,缺乏核心的因果推断能力。以监控告警场景为例,模型虽能围绕告警信息开展分析总结,却无法精准追溯故障根因,既不能独立承担排障任务,更难以在生产环境中直接落地执行,陷入“食之无味、弃之可惜”的尴尬困境。短期来看,突破这一瓶颈的关键的是以逻辑推理为基础,重构运维SOP体系,将运维专家积累的SOP流程与实操经验,通过MD文档或小模型决策树进行结构化梳理,转化为AI可识别的逻辑约束,推动模型实现从“观测告警”到“根因分析”的相对确定性跨越。在完成从L1.5到L2的进阶,再进一步衔接L3级执行闭环,实现运维操作的自动化落地。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、从直觉响应转向严谨的因果推演
  • 二、理解模型发展的路线有助于智能运维建设的阶段性决策
  • 三、AI行业正在聚焦从L2到L3之间的升级
  • 四、推理与思维链是升级背后的设计逻辑
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档