首页
学习
活动
专区
圈层
工具
发布

物理世界的硬通货:为什么机器人容不下三秒的思考

大语言模型可以花几秒钟去憋一个Token,但正在倒咖啡的机器人不行,因为物理世界绝不停下等它。

这就是具身智能最残酷的现实:算力再强,也必须在毫秒级的“延迟预算”内完成决策。为了破局,现在的机器人学正在把大脑“一分为二”:一个大号的VLM负责慢思考,理解场景;一个轻量级的动作专家负责快反应,通过flow matching算法像图片生成器提炼像素一样,一口气吐出一整串动作(Action Chunking),以此对抗单步执行带来的误差累积。

制约这条路的最大瓶颈不是算法,而是高质量的物理数据。用人肉手控收集数据太贵了。行业正通过两条路包抄:一是靠Genie 3这样的World Model虚拟出物理世界来“白嫖”训练数据;二是让普通人戴着智能眼镜干活,把人类日常直接转化为机器人的训练燃料。

当机器人学会用RECAP这类强化学习机制在自我纠错中进化,具身智能才真正从“提线木偶”走向自适应。

interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

#人工智能##AI创造营##具身智能##机器人##强化学习#

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7A0wOCWqkELWGsYi7wnk7jg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券