物理世界的硬通货：为什么机器人容不下三秒的思考

文章来源：企鹅号 - AI可可AI生活

大语言模型可以花几秒钟去憋一个Token，但正在倒咖啡的机器人不行，因为物理世界绝不停下等它。

这就是具身智能最残酷的现实：算力再强，也必须在毫秒级的“延迟预算”内完成决策。为了破局，现在的机器人学正在把大脑“一分为二”：一个大号的VLM负责慢思考，理解场景；一个轻量级的动作专家负责快反应，通过flow matching算法像图片生成器提炼像素一样，一口气吐出一整串动作（Action Chunking），以此对抗单步执行带来的误差累积。

制约这条路的最大瓶颈不是算法，而是高质量的物理数据。用人肉手控收集数据太贵了。行业正通过两条路包抄：一是靠Genie 3这样的World Model虚拟出物理世界来“白嫖”训练数据；二是让普通人戴着智能眼镜干活，把人类日常直接转化为机器人的训练燃料。

当机器人学会用RECAP这类强化学习机制在自我纠错中进化，具身智能才真正从“提线木偶”走向自适应。

interlatent.com/blog/interlatent-modern-ai-robotics-first-principles

#人工智能##AI创造营##具身智能##机器人##强化学习#

发表于: 2天前2026-06-16 14:10:28
原文链接：https://page.om.qq.com/page/O7A0wOCWqkELWGsYi7wnk7jg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

物理世界的硬通货：为什么机器人容不下三秒的思考

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐