首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2026年5月AI论文盘点:Agent爆发、推理内化、原生多模态三大趋势

2026年5月AI论文盘点:Agent爆发、推理内化、原生多模态三大趋势

作者头像
heidsoft
发布2026-07-02 11:53:20
发布2026-07-02 11:53:20
20
举报

数据来源:HuggingFace Daily Papers / DeepPaper / arXiv / CVPR 2026


写在前面

5月的AI论文密度堪称疯狂。

最近把HuggingFace Daily Papers、DeepPaper Breakthrough、arXiv cs.AI以及CVPR 2026的新论文全部过了一遍,整理出这份清单。

说实话,Agent方向已经卷到有点审美疲劳了——每周都有新框架、新评测、新思考模式。但越是在这种时候,越要盯紧那些"范式级"的信号,而不是又被一个新名词带走。

这篇文章的目标很简单:帮你筛选真正值得深跟的,而不是又一堆"新瓶装旧酒"的框架介绍。 每个方向我都会给出核心洞察和一个实际落地方向的判断。


一、Agent & 多智能体系统:热度 ~35%

这是最卷的方向,也是最有机会的方向。


1.1 AgentFugue:通过集体推理实现Agent规模化扩展

论文来源: HuggingFace 05-28

核心观点: 多Agent不是简单叠加,而是通过集体推理形成"群体智能"。就像爵士乐即兴——每个人都在听彼此、响应彼此,最终产出远超个体之和。

技术细节:

  • 提出了"集体推理"机制,多个Agent在解决复杂问题时可以形成临时的"推理链"
  • 不再是"规划Agent + 执行Agent"的静态分工,而是动态的角色切换
  • 在长程任务(Long-Horizon Tasks)上,相比单Agent有显著提升

我的判断:

Scaling Agent不只是加大模型,而是设计协调机制。这对Ops场景意义直接——多Agent协作做运维比单Agent强太多。想象一下:一个Agent负责监控、一个负责诊断、一个负责执行修复,三者实时协同。

这正是ClawOps在做的方向。


1.2 Orchard:Microsoft开源统一Agent训练框架

论文来源: arXiv 05-16

核心观点: 统一了SWE(代码生成)、GUI(界面操作)、个人助手三条训练管线。

技术细节:

  • 一个框架同时支持三种主流Agent训练范式
  • 提出了标准化的"Agent动作空间"定义,让不同任务可以复用同一个训练流程
  • 开源地址在GitHub上,目前Star数增长很快

我的判断:

这意味着什么?未来做Agent的公司不用各自造轮子了,直接基于Orchard微调就行。

如果你在做垂直Agent,这是利好——底层基础设施正在快速标准化。但同时,差异化会更难靠"底层技术"建立了,真正的护城河在领域数据和场景理解


1.3 AutoScientists:自组织科学Agent团队

论文来源: HuggingFace 05-28

核心观点: 长时间运行、自我进化的Agent团队,用于自动化科研。

技术细节:

  • Agent A提出假设、Agent B设计实验、Agent C执行验证——全部自主完成
  • 支持"失败驱动的自我修正":实验失败后,Agent会自动分析原因并调整假设
  • 已经在化学和材料科学领域验证了有效性

我的判断:

2026年最赚钱的Agent应用不是写代码,而是科研Agent(制药、材料、基因方向)。这些领域的付费意愿极强,而且问题足够复杂、足够专业,人类专家稀缺。

但这需要极强的领域知识——不是一般创业公司能玩的。如果OPTC要做,这个方向可以研究,但建议先从自己擅长的Ops场景入手。


1.4 Agent也会老化:Lifespan Engineering

论文来源: HuggingFace 05-28

核心观点: 你的Agent部署久了会"老化",性能下降、需要更新。

技术细节:

  • 首次系统性地研究了Agent在长期运行后的性能衰减模式
  • 发现主要衰减发生在:上下文窗口被污染、过度拟合特定场景、工具调用能力退化
  • 提出了"健康度监控"的框架,包括定期的"Agent体检"

我的判断:

这是一个被严重低估的产品机会。

现在行业里都在卖"一次性部署"的Agent服务,但真正的问题是:部署之后怎么办?

做Agent健康度监控 + 自动热更新,比卖"一次性部署"更有长期价值。这也可以是ClawOps的差异化方向之一——不止是运维执行,还要能"养护"Agent。


1.5 Agent Hijack:计算机使用Agent的鲁棒性评测

论文来源: HuggingFace 05-28

核心观点: 评测计算机使用Agent(Computer Use Agent)对常见环境损坏的鲁棒性。

技术细节:

  • 发现当前主流Agent在面对"界面元素消失"、"网络延迟"、"权限变更"等常见问题时,失败率很高
  • 提出了标准化的"破坏性测试"方法论
  • 最脆弱的场景:多步骤操作的中后期(累计误差放大)、跨应用切换(上下文丢失)

我的判断:

做企业级Agent的,这个是必读论文。Reliability是ToB产品的生命线。 你花再多功夫提升Agent能力,如果可靠性和稳定性不过关,企业客户是不会买单的。


1.6 APWA:分布式可并行Agent工作流

论文来源: arXiv 05-16

核心观点: 将复杂工作流拆分为独立子问题并行执行。

技术细节:

  • 类似MapReduce的思想,但针对Agent任务
  • 可以把一个需要10步串行执行的任务,拆成5组并行执行
  • 实测效率提升2-4倍,具体取决于任务依赖关系

我的判断:

对于运维场景,这个很有价值。比如"批量日志分析"、"多台服务器并行巡检",天然适合这种模式。ClawOps如果能支持这种并行执行模式,会是很大的亮点。


二、推理 & Chain-of-Thought:热度 ~20%


2.1 🔥 理论突破:Transformers可学习内化思维链

论文来源: DeepPaper 05-27

核心观点: 首次有理论证明,Transformer可以学会隐式执行思维链,而不需要在推理时显式调用CoT。

技术细节:

  • 论文给出了严格的数学证明:在足够大的模型和足够长的训练数据下,Transformer会自发地形成"内部思维链"
  • 这意味着推理时不需要再输出那串"let's think step by step"
  • token数量可减少约50%,延迟和成本相应下降

我的判断:

这是本月最重要的论文,没有之一。

对行业的直接影响:

  • 云端推理成本 ↓ (token数量减少)
  • 端侧部署可能性 ↑ (计算量降低)
  • 现有"推理即服务"公司的定价压力会更大

对OPTC的影响: 如果推理成本大幅下降,企业使用AI的门槛会更低,ClawOps这类工具的渗透率会上升。这是利好。


2.2 REPOT:可恢复的程序思维

论文来源: HuggingFace 05-29

核心观点: 在执行复杂推理时,中途出错怎么办?通过检查点机制实现推理过程的可恢复性。

技术细节:

  • 类似容错机制,但用在LLM推理上
  • 支持"推理快照"——在关键节点保存状态,出错时可以从最近快照恢复而不是从头开始
  • 可以显著降低长程推理任务的总成本(不用每次都重头跑)

我的判断:

这对自动化运维场景很有价值。Agent执行任务时出错可以回滚而不是从头开始 —— 这才是企业级可靠性该有的样子。

结合Agent Hijack那篇,企业级Agent的核心就是:能出错、能恢复、能运维。


2.3 STV:训练时+测试时自我改进验证器

论文来源: DeepPaper 05-28

核心观点: 验证器(Verifier)是推理质量的关键。STV的核心是:不仅训练时改进,部署后还能持续自我改进。

技术细节:

  • 验证器负责判断推理结果是否正确,这是RL中常见的技术
  • STV让验证器可以在部署后通过用户反馈持续优化
  • 在数学和代码评测集上效果显著

我的判断:

在线学习能力 —— 这对需要高可靠性的生产系统很有意义。想象一下,ClawOps的Agent可以在每次运维任务后学习用户偏好和新的错误模式,变得越来越懂这个客户的环境。

这是未来差异化竞争的关键。


2.4 HRBench:混合推理思维模式切换策略评估

论文来源: HuggingFace 05-28

核心观点: 评估LLM在不同推理模式之间切换的能力。

技术细节:

  • LLM需要根据任务类型动态选择"快思考"(直觉)还是"慢思考"(分析)
  • 这个切换能力本身需要评测和优化
  • 发现当前模型普遍存在"切换时机判断不准"的问题

我的判断:

这和人类的"元认知"类似——知道自己什么时候该谨慎,什么时候可以相信直觉。这个能力对Agent执行效率影响很大。快了会出错,慢了效率低。


三、视觉 & 多模态:热度 ~18%


3.1 🔥 NEO-ov:端到端原生视觉-语言模型

论文来源: DeepPaper 05-27

核心观点: 消灭视觉编码器,直接从像素到token。

技术细节:

  • 现有架构:视觉编码器(提取特征) + 投影层 + LLM
  • NEO-ov:直接端到端,像素直接进Transformer,和文本token一起处理
  • 在多个视觉理解任务上达到SOTA,且延迟更低

我的判断:

这是个范式转换信号。

如果这个路线在真实场景(不是评测集)打败现有方案,意味着:

  • 视觉编码器这个中间件可能要被革命
  • NVIDIA的GPU优势会受到挑战(因为算子变了)
  • 新的训练范式会出来

值得关注,但不要急着下结论。 论文的实验规模和真实场景覆盖度还需要进一步验证。


3.2 Qwen-VLA:视觉-语言-动作统一模型

论文来源: HuggingFace 05-29

核心观点: 跨任务/环境/机器人形态的视觉-语言-动作统一模型。

技术细节:

  • 阿里开源的多模态模型,支持视觉理解、推理和机器人控制
  • 统一了视觉、语言和动作三个模态
  • 在机器人操作任务上取得了不错的泛化能力

我的判断:

和阿里的RT-2/RT-X路线类似,但更通用。这个方向如果成熟,所有需要操控物理世界的AI都会重构。机器人、医疗影像、自动驾驶——都是潜在受益者。


3.3 minWM:全栈开源视频世界模型

论文来源: HuggingFace 05-29

核心观点: 全栈开源实时交互视频世界模型框架。

技术细节:

  • 支持机器人操作的闭环仿真
  • 实时生成视频流,用于模拟真实环境
  • 开源地址在GitHub上,方便研究

我的判断:

做机器人操作的,这一篇可以直接跟进。开源、实时、端到端,而且国内团队做的,文档和社区支持会更好。


3.4 OSP-Next:高效视频生成

论文来源: HuggingFace 05-28

核心观点: 稀疏序列并行 + HiF8量化 + RL的高效视频生成。

技术细节:

  • 通过稀疏并行大幅提升视频生成的吞吐量
  • HiF8量化在保持质量的同时减少显存占用
  • RL用于优化时序一致性

我的判断:

视频生成是2026年的热点之一,但成本一直是个问题。这个方向如果成熟,视频生成会更普及——这对营销、内容创作领域是直接利好。


四、安全 & 对齐:热度 ~12%


4.1 LACUNA:安全Agent建模为递归程序空洞

论文来源: HuggingFace 05-28

核心观点: 把安全Agent当成"程序空洞"——能填补任意功能但不引入外部依赖。

技术细节:

  • 递归程序空洞:可以无限嵌套扩展功能,但不增加外部接口
  • 安全Agent这样做的好处:部署简单,不影响现有系统
  • 在多个攻击场景下测试了有效性

我的判断:

这个思路很有趣。如果这个设计模式跑通,安全Agent的部署会简单很多 —— 直接嵌入现有系统,而不是作为独立服务存在。


4.2 Got a Secret? LLM Agents Can't Keep It

论文来源: HuggingFace 05-28

核心观点: 多Agent系统中的隐私泄露问题。当多个Agent共享上下文时,信息可能通过Agent间的协作通道泄露。

技术细节:

  • 测试了多种多Agent架构,发现信息泄露很普遍
  • 攻击方式:在协作过程中,通过"合理"的追问获取其他Agent的上下文信息
  • 目前没有有效的防御机制

我的判断:

做企业级Agent的,这个是必须关注的问题。

如果你的多Agent系统涉及到敏感信息(财务报表、用户数据、医疗记录),这种隐私泄露可能是致命的。

需要在架构层面做隔离——不同Agent有独立的上下文、不能随意读取对方的"记忆"。


4.3 GradSentry:后门样本过滤

论文来源: HuggingFace 05-28

核心观点: 通过梯度谱熵检测LLM后门样本。

技术细节:

  • 后门攻击:通过在训练数据中植入特定模式,让模型在特定触发条件下产生错误输出
  • GradSentry通过分析梯度分布来识别被污染的训练数据
  • 对主流后门攻击方法有效

我的判断:

这个对数据供应链安全很有价值。如果OPTC要做AI基础设施,确保训练数据的可信性是基本功。


五、架构 & 基础模型:热度 ~8%


5.1 双路径架构:扩展LLM计算和容量

论文来源: DeepPaper 05-28

核心观点: 新双路径块以更少参数超越iso-FLOP匹配模型。

技术细节:

  • 提出了一种新的Transformer块设计:两条路径分别处理"快速判断"和"深度分析"
  • 在相同计算量下,效果显著优于标准Transformer
  • 可以显著降低训练和推理成本

我的判断:

这是"效率派"架构的代表——不是简单地堆参数,而是让每FLOP都更有效。如果这个路线成熟,中小企业训练自己的垂直模型会更可行。


5.2 Parallax:参数化局部线性注意力

论文来源: HuggingFace 05-29

核心观点: 参数化局部线性注意力替代标准注意力。

技术细节:

  • 标准注意力的复杂度是O(n²),Parallax通过局部线性近似降到O(n)
  • 在长序列任务上效果显著
  • 可以和标准注意力混用,灵活权衡效率和效果

我的判断:

这是长上下文LLM的重要技术方向。如果注意力复杂度能降下来,100K甚至1M上下文会更实用——这对Agent的长时间记忆很有意义。


趋势总结

代码语言:javascript
复制

热度排名(2026年5月):
1. 🤖 Agent系统         ████████████████████  ~35%  最热!
2. 🧠 推理/CoT           ██████████████        ~20%
3. 👁️ 多模态/视觉        ████████████          ~18%
4. 🛡️ 安全/对齐          ████████              ~12%
5. 🏗️ 架构创新           ██████                 ~8%
6. 🔬 科学AI             ████                   ~7%

三大核心趋势:

  1. Agent全面爆发 — 从单Agent到多Agent协作、长时间运行、自我进化。基础设施层和垂直落地层都有机会。
  2. 推理内化 — Transformer证明可以隐式执行CoT,推理成本将大幅下降。这是底层变革,影响所有推理赛道。
  3. 原生多模态 — 端到端统一建模正在取代"拼接式"架构。视觉编码器、语音编码器这些中间件可能要被革命。

Agent & 多智能体系统

  • AgentDoG 1.5 — AI Agent 安全对齐框架 https://arxiv.org/abs/2605.29801
  • AgentFugue — 长时间任务 Agent 扩展与集体推理 https://huggingface.co/papers/date/2026-05-28 (AgentFugue)
  • AgensFlow — 多智能体系统协调策略底层框架 https://huggingface.co/papers/date/2026-05-28 (AgensFlow)
  • Agent Explorative Policy Optimization — 多模态 Agent 推理策略优化 https://huggingface.co/papers/date/2026-05-28
  • AutoScientists — 自组织 Agent 团队科学实验 https://huggingface.co/papers/date/2026-05-28
  • Gamma-World — 生成式多智能体世界建模 https://huggingface.co/papers/date/2026-05-28
  • SkillGrad — 像梯度下降一样优化 Agent 技能 https://huggingface.co/papers/date/2026-05-28
  • Agent Lifespan Engineering — 部署系统 Agent 生命周期工程 https://huggingface.co/papers/date/2026-05-28
  • AgentHijack — Agent 鲁棒性评估基准 https://huggingface.co/papers/date/2026-05-28
  • LACUNA — 安全 Agent 递归程序空洞 https://huggingface.co/papers/date/2026-05-28
  • Got a Secret? LLM Agents Can't Keep It — 多 Agent 系统隐私 https://huggingface.co/papers/date/2026-05-28
  • Orchard — Microsoft 开源 Agentic 建模框架 https://arxiv.org/abs/2506.15785
  • APWA — 分布式可并行 Agent 工作流 https://arxiv.org/abs/2506.15686
  • GraphFlow — 可验证 Agent 工作流 (97.08%临床完成率) https://arxiv.org/abs/2506.15926
  • Agent S — 开源自主 Agent 框架 https://arxiv.org/abs/2410.08164
  • JoyAgents-R1 — 层次化多 Agent 系统 https://arxiv.org/abs/2506.19846

🧠 推理 & Chain-of-Thought

  • Transformers Provably Learn to Internalize CoT 🔥 https://arxiv.org/abs/2605.28600
  • Self-Trained Verification (STV) https://arxiv.org/abs/2605.30290
  • LLM-Evolved Heuristics for Symbolic AI Planning https://arxiv.org/abs/2605.29649
  • ResearchMath-14K — 扩展科研级数学推理 https://huggingface.co/papers/date/2026-05-28
  • REPOT — 可恢复程序思维 https://arxiv.org/abs/2605.30052
  • Thinking Before Constraining — 统一解码框架 https://arxiv.org/abs/2601.07525
  • HRBench — 混合推理思维模式切换评估 https://huggingface.co/papers/date/2026-05-28
  • DenoiseRL — 从噪声前缀引导推理恢复 https://huggingface.co/papers/date/2026-05-28
  • CooT — 动态多 Agent 协调 https://arxiv.org/abs/2506.23549

🎯 强化学习 & 训练方法

  • Self-Improving LMs with Bidirectional Evolutionary Search https://huggingface.co/papers/date/2026-05-28
  • Why Larger Models Learn More https://arxiv.org/abs/2605.29548
  • How LoRA Remembers? Parametric Memory Law https://arxiv.org/abs/2605.30260
  • LaRA — RL 后训练数据污染检测 https://arxiv.org/abs/2605.29888
  • PEFT-Arena — 稳定-可塑性视角理解参数高效微调 https://huggingface.co/papers/date/2026-05-28
  • RUBRIC-ARROW — LLM 后训练 Rubric 奖励建模 https://arxiv.org/abs/2605.29156
  • Verifiable Rewards Beyond Math and Code https://arxiv.org/abs/2605.29648
  • RLVR — 可验证奖励的强化学习 https://arxiv.org/abs/2504.13837

👁️ 视觉 & 多模态

  • From Pixels to Words: Native One-Vision Models at Scale 🔥 https://arxiv.org/abs/2605.28820
  • minWM — 全栈开源交互视频世界模型 https://arxiv.org/abs/2605.30263
  • YoCausal — 视频生成与世界模型的因果距离 https://arxiv.org/abs/2605.30346
  • Qwen-VLA — 统一视觉-语言-动作模型 https://arxiv.org/abs/2605.30280
  • Native Audio-Visual Alignment for Generation https://arxiv.org/abs/2605.30073
  • OSP-Next — 高效视频生成 https://huggingface.co/papers/date/2026-05-28
  • CollectionLoRA — 一个 LoRA 收集50种效果 https://arxiv.org/abs/2605.25378
  • LoMo — 更深层视觉-语言融合 https://arxiv.org/abs/2605.30265
  • Why Far Looks Up — VLM 空间表征探测 https://arxiv.org/abs/2605.30161
  • GenClaw — 代码驱动 Agentic 图像生成 https://arxiv.org/abs/2605.30248
  • EarlyTom — 早期 Token 压缩加速视频理解 https://arxiv.org/abs/2605.30010
  • AdaState — 自进化锚点流式视频生成 https://arxiv.org/abs/2605.30349
  • NeuROK — 生成式 4D 神经物体运动学 https://arxiv.org/abs/2605.30347
  • SmartDirector — 关键帧条件电影级视频生成 https://arxiv.org/abs/2605.27891
  • Multi-view Consistent 3D Gaussian Head Avatars https://arxiv.org/abs/2605.25220

🖥️ GUI Agent & 计算机使用

  • GUI-CIDER — 因果内化训练 GUI Agent https://huggingface.co/papers/date/2026-05-28
  • Learn from Weaknesses — 计算机使用 Agent 领域特化 https://huggingface.co/papers/date/2026-05-28
  • UI-KOBE — 轻量级图引导 GUI Agent https://arxiv.org/abs/2605.29534
  • LiteCoder-Terminal — 长时间终端环境 Agent 学习 https://arxiv.org/abs/2605.29559
  • LiveBrowseComp — 搜索 Agent 行为评估 https://huggingface.co/papers/date/2026-05-28
  • PhoneWorld — 手机使用 Agent 环境扩展 https://arxiv.org/abs/2605.29486
  • AsyncTool — 异步函数调用能力评估 https://arxiv.org/abs/2605.27995
  • PANDO — 在线技能蒸馏高效多模态 Agent https://arxiv.org/abs/2605.24785

🔬 科学 AI & 具身智能

  • ScientistOne — 接近人类水平的自主科研 https://huggingface.co/papers/date/2026-05-28
  • AI Research Agents Narrow Scientific Exploration https://huggingface.co/papers/date/2026-05-28
  • GEM — 生成式监督提升具身智能 https://huggingface.co/papers/date/2026-05-28
  • GE-Sim 2.0 — 机器人操作全闭环视频世界模拟器 https://huggingface.co/papers/date/2026-05-28
  • CausaLab — 面向 AI 科学家的交互式因果发现 https://arxiv.org/abs/2605.26029
  • Skill0.5 — Agent 强化学习 OOD 泛化 https://arxiv.org/abs/2605.28424
  • PhyGenHOI — 物理感知 4D 人-物交互生成 https://arxiv.org/abs/2605.30268
  • DynaFLIP — 三模态动力学引导机器人感知 https://arxiv.org/abs/2605.30350
  • MoZoo — 视频扩散动物毛皮肌肉模拟 https://arxiv.org/abs/2605.13857

🏗️ 架构 & 基础模型

  • 双路径架构: Scaling Compute and Capacity in LLMs 🔥 https://arxiv.org/abs/2605.30202
  • Parallax — 参数化局部线性注意力 https://arxiv.org/abs/2605.29157
  • Growing a Neural Network in Breadth, Depth, and Time https://huggingface.co/papers/date/2026-05-28
  • CONF-KV — 置信度感知 KV Cache 驱逐 https://arxiv.org/abs/2605.24786

🛡️ 安全 & 对齐

  • GradSentry — 梯度谱熵检测 LLM 后门 https://huggingface.co/papers/date/2026-05-28
  • Alignment Tampering — RLHF 被利用优化偏差 https://arxiv.org/abs/2605.27355
  • Token-Level Generalization in LoRA Adapter Backdoorshttps://arxiv.org/abs/2605.30189
  • Reducing Political Manipulation with Consistency Traininghttps://arxiv.org/abs/2605.22771

🔎 检索 & 搜索

  • OmniRetrieval — 异构知识源统一检索 https://arxiv.org/abs/2605.29250
  • Xetrieval — 机械解释密集检索 https://arxiv.org/abs/2605.29507
  • Is Position Bias in Dense Retrievers Built In?https://arxiv.org/abs/2605.26578
  • CoHyDE — LLM 重写器与编码器协同训练 https://arxiv.org/abs/2605.29271
  • ALE-Bench — 算法工程自动 LLM 评估 https://arxiv.org/abs/2506.09050

🤖 机器人

  • 极端动态对称性实现全向多功能机器人https://arxiv.org/abs/2605.29254

🎮 博弈 & 应用

  • PokerSkill — LLM 无需训练达到专家级扑克 https://arxiv.org/abs/2605.30094

👥 评估 & 基准

  • PRISM — LLM 同行评审多维度基准 https://arxiv.org/abs/2605.26730
  • WorldMemArena — 多模态 Agent 记忆评估 https://arxiv.org/abs/2605.29341
  • OmniInteract — 全模态实时流式交互基准 https://arxiv.org/abs/2605.26485
  • JudgeBench — LLM 评判基准 https://arxiv.org/abs/2410.12784
  • ChildVox — 儿童语音/音频 LALM 基准 https://arxiv.org/abs/2605.29257

🧪 其他

  • Colored Noise Diffusion Samplinghttps://arxiv.org/abs/2605.30332
  • UniSteer — 文本引导激活空间流匹配 LLM 操控 https://arxiv.org/abs/2605.30076
  • When Should Models Change Their Minds?https://arxiv.org/abs/2605.30219
  • Towards Verifiable Multimodal Deep Researchhttps://arxiv.org/abs/2605.29861
  • Reflective Prompt Tuninghttps://arxiv.org/abs/2605.21781
  • Mind-Omni — 脑-视觉-语言统一建模 https://arxiv.org/abs/2605.29591

数据来源:HuggingFace Daily Papers / DeepPaper Breakthrough / arXiv cs.AI / CVPR 2026

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 写在前面
  • 一、Agent & 多智能体系统:热度 ~35%
    • 1.1 AgentFugue:通过集体推理实现Agent规模化扩展
    • 1.2 Orchard:Microsoft开源统一Agent训练框架
    • 1.3 AutoScientists:自组织科学Agent团队
    • 1.4 Agent也会老化:Lifespan Engineering
    • 1.5 Agent Hijack:计算机使用Agent的鲁棒性评测
    • 1.6 APWA:分布式可并行Agent工作流
  • 二、推理 & Chain-of-Thought:热度 ~20%
    • 2.1 🔥 理论突破:Transformers可学习内化思维链
    • 2.2 REPOT:可恢复的程序思维
    • 2.3 STV:训练时+测试时自我改进验证器
    • 2.4 HRBench:混合推理思维模式切换策略评估
  • 三、视觉 & 多模态:热度 ~18%
    • 3.1 🔥 NEO-ov:端到端原生视觉-语言模型
    • 3.2 Qwen-VLA:视觉-语言-动作统一模型
    • 3.3 minWM:全栈开源视频世界模型
    • 3.4 OSP-Next:高效视频生成
  • 四、安全 & 对齐:热度 ~12%
    • 4.1 LACUNA:安全Agent建模为递归程序空洞
    • 4.2 Got a Secret? LLM Agents Can't Keep It
    • 4.3 GradSentry:后门样本过滤
  • 五、架构 & 基础模型:热度 ~8%
    • 5.1 双路径架构:扩展LLM计算和容量
    • 5.2 Parallax:参数化局部线性注意力
  • 趋势总结
  • Agent & 多智能体系统
  • 🧠 推理 & Chain-of-Thought
  • 🎯 强化学习 & 训练方法
  • 👁️ 视觉 & 多模态
  • 🖥️ GUI Agent & 计算机使用
  • 🔬 科学 AI & 具身智能
  • 🏗️ 架构 & 基础模型
  • 🛡️ 安全 & 对齐
  • 🔎 检索 & 搜索
  • 🤖 机器人
  • 🎮 博弈 & 应用
  • 👥 评估 & 基准
  • 🧪 其他
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档