首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >世界模型杀回来了, VLA 还能撑多久?

世界模型杀回来了, VLA 还能撑多久?

作者头像
乐小野
发布2026-06-15 14:43:24
发布2026-06-15 14:43:24
120
举报

EMBODIED AI · DEEP DIVE · 2026

告别 RT-2 时代:具身智能的"换骨"已经开始

2026 具身智能的范式分裂、算法细节与市场格局

—— 一场比 LLM 更隐秘、但更激烈的路线斗争

VLA World Model Diffusion · Flow Matching RL in Imagination Market Map

阅读对象:默认你被科普过 RT-2、π0、OpenVLA ,稍微知道 ROS / IsaacLab / LeRobot,听说过 LIBERO 或 CALVIN。本文不是科普,是对 2026 年具身智能算法路线 + 市场格局的一次系统拆解,含数学细节、伪代码、benchmark 数据与一二级市场融资全景。建议配电脑阅读

▎ TABLE OF CONTENTS

01 · VLA 的形式化定义

02 · 算法解剖:Diffusion / Flow Matching / FAST

03 · VLA 撞上的三堵墙(含定量数据)

04 · 世界模型回归:架构谱系

05 · 三条路线的对决

06 · WMPO 深度拆解 + 工程陷阱

07 · sim2real 技术栈

08 · 评估 Benchmark 全景

09 · 数据策略四象限

10 · 市场格局:海外玩家深度解析

11 · 市场格局:中国梯队全景

12 · 商业化时间表与拐点信号

13 · 实战 Checklist + 总结

2023 年 Google 的 RT-2 让所有人相信:把 VLM 的视觉-语言能力延伸到动作 token,机器人就有了"大脑"。从此 RT-2 → OpenVLA → π0 → AgiBot GO-1 → Figure Helix → GR-2 → π0.5,VLA 成了具身智能的"标准答案"。

但到 2026 年,行业突然冷静下来:VLA 模型在真机泛化、长程任务、接触丰富场景上集体撞墙。同期,世界模型从 DeepMind Genie、Wayve GAIA、1X World Model、Meta V-JEPA-2 一路杀回——并在 ICLR 2026 上以 WMPO 为代表,提出了"在想象中做 RL"的新范式。

与之同步,资本市场两个月内向中国具身智能砸进 200 亿人民币,宇树、智元、银河通用集体冲入百亿估值,智元 IPO 估值 420 亿,银河通用以 30 亿美金估值刷新行业纪录——技术路线分裂正在被资本放大成产业站队。

于是核心问题摆到桌面上:VLA 是终局,还是过渡?谁会赢下这场"具身大模型"的卡位赛?

"VLA 解决的是怎么做,世界模型解决的是会发生什么。 没有后者,前者只能靠堆数据硬怼。" —— 一位国内具身大厂技术负责人的私下评价

01 · 形式化:VLA 到底是什么

抛开"VLA 就是会动的多模态大模型"这种口语化描述,严格定义如下:

FORMAL DEFINITION · VLA

πVLA(at:t+H|ot-k:t,l,pt) =Decoder(VLM(ot-k:t,l),pt) ot-k:t: 当前及历史 k 帧观测(多视角 RGB / RGB-D / 深度) l : 自然语言指令 pt : 本体状态(关节角 / 末端 pose / 力反馈) at:t+H: 未来 H 步动作 chunk(H ∈ [4, 50]) 训练目标:L = -Σ log π(a* | o, l, p) # BC 数据: 真机遥操 + 人类示范 + sim 轨迹 + 跨 embodiment 预训练

几个工程选择决定了一个 VLA 是 2023 风格还是 2026 风格:

Action Representation

离散 binning token(RT-2 风格,256 bin × 7 DoF = 1792 vocab)→ 连续回归(ACT、π0)→ Diffusion / Flow Matching(π0、RDT-1B、CogACT)。趋势是连续 + 流匹配,因为接触丰富任务对量化误差极敏感(实测 256 bin 下力控任务成功率比连续低 20+ 个点)。

Action Chunking & 推理频率

一次预测 H 步(H=8~50),用 temporal ensemble 平滑。chunking 把复合误差从 O(T²) 降到 O(T·H)。代价是推理时间——π0 在 4090 上单 chunk ~80ms,必须搭配 KV cache + action expert 蒸馏才能上 50Hz。

FAST Tokenization

Physical Intelligence 2024 提出:对 chunk 做 DCT,再对系数做 BPE。50 步 × 7 DoF 从 350 → ~30 token,序列长度 -10×,长程任务 SOTA。已成 2026 行业新基线,OpenVLA-OFT、CogACT、π0.5 全在用。

Backbone 选择

PaLI-3 / Llama-2-7B / Qwen2-VL / SigLIP-So400m + Llama。一个被忽略的事实:在 1B-7B 区间,backbone 大小对真机成功率几乎无影响——OpenVLA-7B vs OpenVLA-1B 差距 <3%。瓶颈不在 VLM。

02 · 算法解剖:Diffusion / Flow Matching / FAST

这一章是给真正在写代码的人看的。三种主流 action head 的核心数学和工程取舍:

2.1 · DIFFUSION POLICY

把动作生成建模成去噪

Chi et al. (2023) 把 DDPM 搬到机器人控制。前向加噪 a_τ = √ᾱ_τ·a_0 + √(1-ᾱ_τ)·ε,反向用条件 U-Net 预测噪声 ε(a_τ, τ, o)。

# Training (DDPM) τ ~ U(1, T); ε ~ N(0, I) a_τ = √ᾱ_τ · a_0 + √(1-ᾱ_τ) · ε L = ‖ε - ε_θ(a_τ, τ, obs)‖² # Sampling (DDIM, 10 steps) for τ in reversed(schedule): a = denoise_step(a, τ, obs)

优势:表达多模态分布(同一观测下多种合理动作);劣势:推理需要 10-100 步去噪,慢。工程对策:DDIM / DPM-Solver++ 把步数压到 5-10;更激进的方向是 Consistency Policy(Prasad et al., 2024),单步生成,推理速度 10×,已用于 1X 量产管线。

2.2 · FLOW MATCHING

从噪声到动作的"直线"

π0、π0.5 用的就是它。核心思想:不学反向 SDE,直接学一条常微分场 v_θ(a_t, t, obs),把噪声样本沿场积分到目标动作。损失是简单的 conditional flow matching:

t ~ U(0, 1); a_0 ~ N(0, I) a_t = (1-t)·a_0 + t·a_1 # 直线插值 target = a_1 - a_0 # 速度场 L = ‖v_θ(a_t, t, obs) - target‖²

相比 DDPM,训练更稳、采样路径更短(5 步可达 SOTA)、可与 LLM transformer 直接拼接。π0 的 action expert 就是一个 300M flow matching head,挂在 PaliGemma 后面,整体在 7B 参数下推理 ~50Hz。这是 2026 年的事实标配。

2.3 · FAST TOKENIZATION

把动作压进频域

朴素 binning:50 步 × 7 DoF = 350 token,太长且高度冗余(人类动作低频信号占 90%+ 能量)。FAST 流程:

Step 1:每个 DoF 做 1D-DCT,保留低频系数(典型截断到 25%)。

Step 2:系数量化到 8-bit,跨 DoF 拼接成一维序列。

Step 3:BPE 学一个 ~1024 vocab,进一步压缩。

最终:50×7 = 350 raw → ~30 token,序列长度 -10×,长程任务 SOTA,且与离散 VLA(如 OpenVLA)直接兼容。OpenVLA-OFT、CogACT、π0.5 全部默认开启。

▎ Action Head 横向对比

DDPM Diffusion · 表达力最强 · 推理慢 · 训练稳 · 适合离线策略

Flow Matching · 表达力强 · 推理快(5 步) · 训练最稳 · 主流 SOTA

FAST + 离散 token · 与 LLM 完全同构 · 推理快 · 表达力受量化限制

Consistency Policy · 单步推理 · 蒸馏代价高 · 量产首选

03 · VLA 撞上的三堵墙(含定量数据)

2025 下半年到 2026 年初,多家具身大厂内部评估都指向同一件事:纯 VLA scaling 边际收益急剧下降。原因可以收敛成三堵墙——

WALL 1 · DATA

数据墙:比 VLM 数据少 5 个数量级

直观对比:

GPT-4 级 VLM:~10¹³ 训练 token(互联网图文)

Open-X-Embodiment:~1M episodes ≈ 10⁹ steps

智元 AgiBot World:~100 万真机 episodes(2026 公开)

π0 训练集:~10000 小时跨 embodiment 真机数据

差距 4-5 个数量级。更糟的是:真机数据不可互联网爬取。一台机器人一天产 ~100 episodes,1000 台机器人一年也只有 ~3.6×10⁷ episodes,带宽根本撑不到 LLM 那种 scaling law

Physical Intelligence 内部数据:把训练数据从 1000h 加到 10000h,LIBERO-Goal 成功率 +6%;从 10000h 加到 30000h,只 +1.5%。这不是 plateau 的边缘,这是 plateau 本身。

WALL 2 · GENERALIZATION

泛化墙:三轴 OOD 同时叠加

VLA 同时面对三种分布偏移:

视觉 OOD:新光照、新背景、新相机标定。CLIP-style 编码器对域漂移敏感度比想象中高。

物体 OOD:新形状、新材质、新摩擦系数。BC 没有"物理常识",软物体、玻璃、织物全部翻车。

本体 OOD:新 embodiment(不同臂长 / 灵巧手 / 双臂构型)。Action space 维度本身在变。

▎ 一组真实评测数字(CogACT / π0.5 内部,2025 Q4)

同 embodiment + 同物体 + 同场景:~92%

+ 视觉 OOD:~75%

+ 物体 OOD:~58%

+ 本体 OOD:~32%

三轴 OOD 同时:<15%

这不是"再多收点数据就能修"。OOD 衰减斜率 ≈ -0.6/axis,你必须能用非真机数据(人类视频 / 仿真 / 想象 rollout)补充覆盖率,否则永远卡在演示场景。

WALL 3 · PHYSICS / CAUSALITY

物理墙:BC 学不到因果

最深的一堵。VLA 本质是条件 BC——只学到了"专家在这个观测下会做什么动作",没学到"做这个动作之后世界会变成什么样"

▸ 不会做反事实推理("换个角度抓会不会更稳?")

▸ 不会做长程规划(>10s 任务成功率断崖下跌)

▸ 错误一旦发生无法自我修正(不知道"该恢复到什么状态")

▸ 接触动力学完全靠"见过类似 demo"硬记,没有 inductive bias

这堵墙告诉我们:没有显式的世界动力学,VLA 永远是反应式策略,不是智能体。这正是世界模型回归的逻辑起点。

04 · 世界模型回归:四种架构谱系

"世界模型"不是新概念——Schmidhuber 1990 就提了。它在 2024-2026 走出实验室,变成具身智能事实上的"第二只脚"。但说"世界模型"其实模糊,因为它至少分四种架构,目标和工程取舍完全不同:

A · RSSM 系(Recurrent State Space Model)

代表:Dreamer V1-V3、DayDreamer、TD-MPC2

Encoder 把观测压成 latent z,RNN 学转移 z_{t+1} = f(z_t, a_t)。policy 全程在 latent 中 rollout。

优势:训练样本效率极高(DreamerV3 在 Atari 100k 上 SOTA) 劣势:latent 维度低,难表达高保真视觉;几乎不与 VLM 兼容

B · Transformer Dynamics

代表:IRIS、TWM、Genie-1(latent action)

用 VQ-VAE 把帧编码成离散 token,Transformer 自回归预测下一帧 token + reward。Genie 的关键创新是从无监督视频里学出 latent action codebook(IDM),让纯视频也能"被控制"。

优势:可扩展、与 LLM 工具链完全兼容、推理可分块加速 劣势:高保真长视频生成代价高

C · Diffusion Video as World Model

代表:GAIA-1/2、1X World Model、Wayve、UniSim、RoboDreamer

把可控视频生成模型当 simulator:输入历史帧 + action condition → 输出未来帧。Wayve GAIA-2 已能稳定生成 ~30 秒 720p 驾驶 rollout,1X World Model 能为 EVE / NEO 生成第一人称未来视频。

优势:保真度最高、可视化直观、可继承大视频生成模型权重 劣势:单帧推理 100ms+,难做实时;rollout 误差累积明显

D · JEPA 系(Joint-Embedding Predictive Architecture)

代表:V-JEPA-2、I-JEPA、AC-JEPA

LeCun 的核心赌注:不重建像素,只在 latent 空间预测未来表征。损失是 latent regression 而非像素 L2,避免把 capacity 浪费在"画窗帘的纹理"上。

优势:表征质量高、推理快、训练稳 劣势:可视化困难,工业界 buy-in 慢

▎ 四种架构 · 工业适用性矩阵

需要"想象 RL 训练" → A (RSSM) 或 D (JEPA),速度优先

需要"高保真视觉评估" → C (Diffusion Video)

需要"复用 LLM 基建" → B (Transformer dynamics)

需要"互联网视频规模预训练" → B 或 C,配合 latent action 推断

05 · 三条路线的真正对决

站在 2026 年中,业界事实分裂为三条路线,每条都有重磅玩家在押注:

ROUTE A · SCALE THE VLA

纯 VLA scaling 派

代表:Physical Intelligence π0/π0.5、AgiBot GO-1/G2、Figure Helix、星动 ERA-42。

核心信念:数据是答案,scaling 没结束。

关键武器:跨 embodiment 数据、Open-X、海量遥操、co-training(人类视频 + 机器人)、FAST tokenization。

软肋:物理墙没法靠数据穿过;data efficiency 拉胯;OOD 衰减无法收敛。

ROUTE B · VLA + WORLD MODEL

混合派(当前最被看好)

代表:WMPO、Wayve、1X、部分 Tesla Optimus 路线、银河通用 GraspVLA + 世界模型混合栈、清北一批 ICLR/CVPR 2026 工作。

核心信念:BC 给"先验",WM 给"动力学",RL-in-imagination 把两者粘合。

关键武器:可控视频 / latent rollout + 想象 RL(PPO / GRPO / DreamerV3 风格)+ sim2real 校准。

软肋:世界模型本身的训练、evaluation 与覆盖率非常难;rollout 误差累积仍未根除。

ROUTE C · WORLD ACTION MODEL

激进派(World Model 即 Policy)

代表:Genie-Action 系、V-JEPA 后继路线、若干 ICLR 2026 黑马、自变量机器人部分研究线。

核心信念:动作只是世界模型的潜变量。学好 world,policy 自动浮出来。

关键武器:latent action(IDM/FDM)、joint embedding predictive、planning by inference(CEM/MPC over WM)。

软肋:实时性差,落到真机控制频率(30-100Hz)非常吃工程;尚未在真机长程任务上证明自己。

06 · WMPO 深度拆解:在想象中做 RL

Route B 最具代表性的算法是 WMPO(World-Model Policy Optimization, ICLR 2026)。它解决的核心痛点:真机 RL 太贵太危险,sim RL 又有 sim2real gap,那能不能用世界模型当 sim?

PSEUDOCODE · WMPO Full Pipeline

# Stage 1 · 训练 World Model(action-conditioned dynamics)WM = train_world_model(D_video + D_robot, loss="latent_next_pred + reward_pred")# Stage 2 · BC 预热 VLAπ = pretrain_vla(D_demo, loss="flow_matching")# Stage 3 · 想象 RL:完全在 WM 内 rolloutfor iter inrange(N): # 真实初始状态 fork 多条想象 z0 = WM.encode(o_real) trajs = [] for b inrange(B): # 并行 rollout z, traj = z0, [] for t inrange(H): # H ≤ 30 防误差爆炸 a = π(z, l) + ξ # 探索噪声 z', r̂ = WM.step(z, a) # 想象动力学 + 奖励 traj.append((z, a, r̂)) z = z' trajs.append(traj) # 优势估计 + 策略更新(GRPO / PPO 风格) π = update_policy(π, trajs, advantage=GAE(r̂))# Stage 4 · 真机微调(小数据量纠正想象偏差)π = finetune_on_real(π, D_real_small, lr=1e-5)

几个工程细节决定 WMPO 风格能不能 work:

① WM 必须 action-conditioned。不能只生成被动视频,否则 policy 没有 gradient。

② Reward 必须 latent-computable。用 VLM-as-judge(Gemini / GPT-4V)在 latent 上算稀疏奖励,是 2026 行业 hack。

③ Rollout 长度 ≤ 30 帧。实测 WM 在 H>50 误差呈指数发散,policy 学到"在错误想象里最优"。

④ 真实-想象交替。每 K 个想象 iter 必须穿插一次真机/真 sim rollout 校准,否则 reward hacking 必出现。

⑤ Trust region。π 与 π_BC 的 KL 必须裁剪,否则 policy 漂移到 WM 覆盖外的 action 空间。

⚠ WMPO 常见工程陷阱

Reward Hacking:policy 学会"骗"WM(生成看起来完成但物理不可信的轨迹)。对策:reward model 与 WM 解耦训练。

WM Underfit Tail:罕见 action 在 WM 中转移不准,policy 偏偏会主动探索这些方向。对策:action coverage curriculum。

Latent Drift:长 rollout 后 z 漂出训练分布。对策:周期性 z ← WM.encode(WM.decode(z)) 投影。

Sim-Imagination Gap:想象优秀但真机仍翻车。对策:真机微调阶段必须包含对抗扰动数据。

07 · sim2real 技术栈:被低估的工程难点

无论 Route A/B/C,最后一公里都要回到真机。sim2real 不是"加点 domain randomization"那么简单,2026 年的工业栈至少包括五层:

L1 · 高保真物理引擎

IsaacLab(GPU 并行 RL)+ MuJoCo MJX(接触模型最准)+ Genesis(2024 起新 SOTA,速度 10×)。柔性体、流体、布料仍是软肋。

L2 · Domain Randomization

物理参数(摩擦 / 质量 / 阻尼)+ 视觉(光照 / 纹理 / 相机内参)+ 控制噪声。"过 randomize"会损害最终性能,需要曲线学习。

L3 · System Identification

用真机少量数据反向标定仿真参数。Real-to-Sim-to-Real 闭环(如 RialTo 2024、ASID)已成标配。

L4 · Visual Sim2Real

3D Gaussian Splatting / NeRF 用真机扫描重建场景,把仿真渲染拉到真机分布。配合 Cross-Reality Co-training(mixed real+sim batch)效果最佳。

L5 · 在线 Residual Policy

π_real(s) = π_sim(s) + Δπ(s),Δπ 用真机小数据 fine-tune。比全量重训便宜 100×,是 1X / Figure / 银河通用都在用的"最后一公里"。

08 · 评估:用什么证明你的路线更好

具身智能的 benchmark 远比 LLM 复杂——sim 与真机有 gap,单 benchmark 极易被刷爆。一个负责任的评估至少要覆盖:

▎ 主流具身 Benchmark 一览(2026)

LIBERO

仿真桌面操作,4 split(Spatial/Object/Goal/Long)。SOTA VLA 已 ~95%,逼近天花板,鉴别力下降

SIMPLER-Env

Google 2024 提出的"sim 替代真机"评估,与真机相关性 r=0.87,是 VLA 论文事实标准。

RoboCasa

100 个厨房任务,5500 个 3D 资产,强调多样化 + 长程,是 2025-2026 的 OOD 试金石。

CALVIN

长程语言条件操作,34 任务连续执行,专测 long-horizon。

Open-X-Embodiment

数据集而非 benchmark,但是跨 embodiment 评估的事实底盘(22 种机器人)。

AgiBot World Challenge

智元 2025 推出,217 个真机长程任务,是国内最权威的真机评测基准。

RoboArena / EmbodiedEval

2025-2026 新出的统一榜单,多家厂商联合打分,开始对标 LMSYS 在 LLM 圈的地位。

除了任务成功率,2026 年值得跟踪的指标:

OOD 鲁棒性曲线:成功率随分布偏移程度的衰减斜率(数值越平越好)

Data Efficiency:达到 X% 成功所需 demo 数(同 task 下横比)

Recovery Rate:人为扰动后能否回到任务轨迹

sim2real Correlation:sim 上 +1% 是否真能在真机上 +1%

Real-time Feasibility:策略推理频率(必须 ≥30Hz 才能进真机)

Cost-per-Success:单个成功 trial 的训练 + 推理总成本(被严重低估的工业指标)

09 · 数据策略四象限

VLA 也好,World Model 也好,最终都吃同一种"米"。当下数据来源按"成本 / 真实度"分四象限:

① 真机遥操作 · 高真实 · 高成本

质量最高、成本最高。ALOHA / GELLO / Mobile ALOHA / UMI 把单 episode 成本从 100 元打到 10 元,但仍是数量级瓶颈。智元推出"灵犀 X2 数采工厂",单日产能 ~1 万 episodes。

② 大规模仿真 · 中真实 · 低成本

IsaacLab / RoboCasa / Genesis / MuJoCo MJX。几乎免费,但 sim2real gap 仍是头号痛点。配合 DR + 在线 sim2real 校准是当前最优解。

③ 人类视频 + Latent Action 推断 · 中真实 · 极低成本

Genie / LAPA / GR-1/GR-2 / Vid2Robot:从无标签视频学 latent action 再绑定到机器人本体。把"互联网视频规模"接入具身的最有希望路径。Ego4D(3670h)+ HowTo100M(135M videos)是当下首选。

④ 世界模型自生成 · 想象真实 · 边际成本递减

用 WM 自己 rollout"想象数据"训 policy。把数据问题转化成 WM 训练问题——这正是 Route B 的赌注。一旦 WM 收敛,边际数据成本 ≈ GPU 推理成本

Physical Intelligence 已公开承认:π0.5 训练数据中 ~30% 来自人类视频,π0.6 计划提升到 60%。这是行业风向标——"互联网视频规模"已经不是论文题目,是工业事实。

10 · 市场格局:海外玩家深度解析

海外阵营的特征:技术路线明确,估值高度集中在头部 5-6 家。把它们按"路线 + 商业化优先级"画成一张牌桌:

FIGURE AI 估值约 $39B(2025 E 轮)

最贵的人形机器人公司

路线:自研 VLA「Helix」,主打双臂协同 + 通用家庭/工厂。曾用 OpenAI 模型,2024 年 2 月分手后全面转自研。

关键节点:BMW 工厂部署、与 Brookfield 合作家庭场景数据采集、Figure 02 → Figure 03 量产。

赌注:纯 VLA scaling + 大规模真机数据飞轮。是 Route A 的旗手。

PHYSICAL INTELLIGENCE (PI) 估值 ~$5B(2024 B 轮)

VLA 学术标杆

团队:UC Berkeley + Stanford + Google 班底,π0 / π0.5 / FAST 都出自此。Sergey Levine、Chelsea Finn 坐镇。

路线:跨 embodiment 通用 VLA + 海量数据 + Flow Matching action head。论文产能行业第一

软肋:自己不做硬件,依赖合作伙伴部署,商业化节奏被卡。

赌注:成为"机器人界的 Anthropic"——卖模型而非整机。

TESLA OPTIMUS 不单独估值(Tesla 内部)

最被低估、也最不确定的玩家

路线:复用 FSD 的 end-to-end 视觉栈 + 工厂自有数据。Gen 3 据 Musk 公开口径目标售价 20K-30K。

关键优势:唯一同时拥有世界级 AI、量产能力、自有应用场景(工厂)的玩家。

赌注:从 FSD 复制"垂直整合"打法,做"机器人界的 iPhone"。

1X TECHNOLOGIES 估值约 $1B+(OpenAI 投资)

最早押注世界模型的人形玩家

路线:EVE → NEO,2024 公开自家 World Model,Route B 的标杆样本。

商业化:NEO 家庭机器人定价约 $20K,2026 年开始向北美家庭交付。

赌注:用 World Model 跨过家庭场景的"长尾任务"鸿沟。

SKILD AI 估值约 $4.5B(2025 B 轮)

CMU 班底,定位"机器人 brain"

路线:Deepak Pathak(CMU)创办,做跨 embodiment 通用大模型,不做硬件。

赌注:与 PI 类似——"机器人界的 OpenAI"。但商业模式与硬件公司天然存在合作-竞争张力。

WAYVE 估值约 $2B(NVIDIA / SoftBank 投资)

驾驶域世界模型先驱

路线:GAIA-1 / GAIA-2 自驾世界模型 + 端到端 driver。技术外溢效应——它的 WM 思路被整个具身界借鉴

赌注:自驾仍是世界模型最大的真实战场。

11 · 市场格局:中国梯队全景

2026 年开年两个月,中国具身赛道融资金额突破 200 亿人民币,行业进入"清场年"——头部三家估值百亿+,腰部公司加速分化。

▎ 第一梯队 · 百亿+ 估值俱乐部

宇树科技(估值约 500 亿)· 硬件起家,G1/H1 走量驱动现金流,2026 IPO 节奏中。

智元机器人 AgiBot(IPO 估值约 420 亿)· 远征系列 + 灵犀 X2 数采工厂 + GO-1/G2 大模型,技术 + 数据闭环最完整。

银河通用 Galbot(估值 30 亿美金,~210 亿人民币)· 中国移动领投,具身领域当前最高估值,定位"通用具身大模型 + 整机"。

▎ 第二梯队 · 百亿前夜

星动纪元(估值约 100 亿)· 清华系,3 月完成 10 亿融资,主打 ERA-42 大模型 + 全栈自研人形。

智平方(估值约 100 亿)· 2 月连续两轮近 20 亿,已进入宁德时代工厂产线。"产业落地派"代表。

千寻智能 · Spirit V1 大模型 + 自研整机,京东系深度参与。

自变量机器人 · WALL-A 大模型,世界模型 + 端到端路线(Route C 倾向)。

▎ 第三梯队 · 垂直 / 技术差异化

逐际动力 LimX · 双足 + 操作一体化,香港背景。

众擎机器人乐聚傅利叶 Fourier · 整机 + 工业场景。

穹彻智能 Noematrix · 上交大系,操作大模型 OmniCore。

跨维智能 Dexmal有鹿机器人非夕 Flexiv · 工业 / 商用细分龙头。

▎ 中外典型玩家路线选择

Route A (纯 VLA):Figure、PI、Skild、智元、星动、Helix 路线

Route B (VLA + WM):1X、Wayve、银河通用、Tesla(部分)、清北学界主流

Route C (World Action):自变量、Genie 系学术、V-JEPA 后继路线

12 · 商业化时间表与拐点信号

把当前主流玩家的公开路线图叠在一起,可以画出一张比较清晰的"具身智能落地节奏图":

2024-2025 · 已发生

VLA 成为事实标准;FAST、Flow Matching 落地;Open-X 跨 embodiment 数据集形成;π0 / GO-1 / Helix 等 SOTA VLA 公开。

2026 · 当前年

世界模型回归(WMPO、1X WM、GAIA-2);中国"清场年",头部估值集中;首批工业场景规模化部署(汽车厂 / 物流仓 / 3C 装配);NEO 家庭机器人开始向消费者交付。

2027 · 预期

头部 IPO 落地(智元、宇树);Route B 路线在真机长程任务上首次明确超越 Route A;首批人形机器人达到 1 万台 / 年量产门槛;Optimus Gen 3 量产试销。

2028+ · 大胆预测

"具身基础模型"格局收敛到 3-5 家;通用家庭场景出现首个百万级用户产品;硬件价格跌破 $10K;可能出现机器人界的"ChatGPT 时刻"。

▎ 五个值得盯紧的拐点信号

① 真机长程任务成功率突破 70%(CALVIN / RoboCasa LH)

② Route B 在公开 benchmark 上首次系统性超越 Route A

③ 单家公司年交付量突破 1 万台(决定数据飞轮能否启动)

④ 出现"机器人界 LMSYS"(统一公开榜单 + 真机评测)

⑤ 互联网视频规模训练成主流(人类视频占训练数据 > 50%)

13 · 实战 Checklist(2026 加深版)

□ 1. action head 别用纯离散 token。Diffusion / Flow-matching + chunking 已是 2026 基线。

□ 2. backbone 不要超过 7B。瓶颈在数据和动力学,不在参数。

□ 3. 默认开 FAST 或等价频域 tokenization。chunking ≥ 25 时优势显著。

□ 4. 评估必须三轴 OOD 拆分。视觉 / 物体 / 本体一起报,否则数字没参考价值。

□ 5. 留一条 World Model 通道。哪怕 v0 只是 action-conditioned video。

□ 6. RL 微调先在 WM / sim 里跑。直接真机 RL 是 2026 反模式。

□ 7. sim2real 必须有量化 correlation。否则刷的 sim 分数对真机毫无意义。

□ 8. 数据来源至少覆盖三种(真机 + sim + 人类视频)。单一源 VLA 已被反复证明不够。

□ 9. 推理频率纳入约束。<30Hz 的 SOTA 在真机等于不可用。

□ 10. action head 蒸馏到 Consistency Policy。量产场景必备。

□ 11. residual policy 别省。最后一公里靠它。

□ 12. 失败案例进 eval set。每次真机翻车都该转化成回归 task。

14 · 写在最后:VLA 不死,但已经不够

VLA 不会消失。它太好用、太简洁、太适合做 BC 预热。所有 Route B / C 方法都需要一个"VLA 风格"的初始策略——这是已被验证的事实。

但 2026 之后,仅靠 VLA scaling 就期待通用具身智能,已经没有人会下这个赌注了。世界模型给了一条新的"复利曲线":互联网视频 → latent action → 想象 RL → 真机微调。它把数据问题、泛化问题、物理问题,第一次同时撬开一道缝。

从产业格局看,海外是「Figure 押 A、1X 押 B、Tesla 押垂直整合、PI/Skild 卖大脑」四线分立;国内则是「智元数据飞轮、银河通用通用大模型、宇树硬件现金流、星动技术全栈、智平方产业落地」多点开花。资本两个月 200 亿砸下来,路线分歧反而更尖锐而非收敛——这意味着 2027-2028 年必有一次大洗牌。

所以下次再有人问你"用 VLA 还是世界模型",正确答案是——都用,且让它们互相喂饭。这才是 2026 具身智能真正的样子。

KEY TAKEAWAY

VLA 教会了机器人怎么做, 世界模型才能让它想清楚要做什么

具身智能的下半场,从这里开始。

延伸阅读 / 推荐论文

RT-2 / RT-X — Google DeepMind, 2023

OpenVLA · OpenVLA-OFT — Stanford et al., 2024-2025

π0 / π0.5 / FAST — Physical Intelligence, 2024-2025

Diffusion Policy / Consistency Policy — Chi et al., 2023 / Prasad et al., 2024

DreamerV3 / TD-MPC2 — Hafner et al., 2024 / Hansen et al., 2024

Genie / Genie-2 — DeepMind, 2024-2025

V-JEPA-2 — Meta FAIR, 2025

WMPO: World-Model Policy Optimization — ICLR 2026

Latent Action Pretraining (LAPA) — 2024-2025

AgiBot World — 智元机器人, 2025-2026

#具身智能 #VLA #World Model #Diffusion Policy #Robot Learning #市场分析

— END —

如果你正在做具身智能,欢迎在评论区告诉我们你赌的是哪条路

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 石化人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 告别 RT-2 时代:具身智能的"换骨"已经开始
    • 01 · 形式化:VLA 到底是什么
    • 02 · 算法解剖:Diffusion / Flow Matching / FAST
    • 03 · VLA 撞上的三堵墙(含定量数据)
    • 04 · 世界模型回归:四种架构谱系
    • 05 · 三条路线的真正对决
    • 06 · WMPO 深度拆解:在想象中做 RL
    • 07 · sim2real 技术栈:被低估的工程难点
    • 08 · 评估:用什么证明你的路线更好
    • 09 · 数据策略四象限
    • 10 · 市场格局:海外玩家深度解析
    • 11 · 市场格局:中国梯队全景
    • 12 · 商业化时间表与拐点信号
    • 13 · 实战 Checklist(2026 加深版)
    • 14 · 写在最后:VLA 不死,但已经不够
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档