世界模型杀回来了， VLA 还能撑多久？

乐小野

发布于 2026-06-15 14:43:24

120

EMBODIED AI · DEEP DIVE · 2026

告别 RT-2 时代：具身智能的"换骨"已经开始

2026 具身智能的范式分裂、算法细节与市场格局

—— 一场比 LLM 更隐秘、但更激烈的路线斗争

VLA World Model Diffusion · Flow Matching RL in Imagination Market Map

阅读对象：默认你被科普过 RT-2、π0、OpenVLA ，稍微知道 ROS / IsaacLab / LeRobot，听说过 LIBERO 或 CALVIN。本文不是科普，是对 2026 年具身智能算法路线 + 市场格局的一次系统拆解，含数学细节、伪代码、benchmark 数据与一二级市场融资全景。建议配电脑阅读。

▎ TABLE OF CONTENTS

01 · VLA 的形式化定义

02 · 算法解剖：Diffusion / Flow Matching / FAST

03 · VLA 撞上的三堵墙（含定量数据）

04 · 世界模型回归：架构谱系

05 · 三条路线的对决

06 · WMPO 深度拆解 + 工程陷阱

07 · sim2real 技术栈

08 · 评估 Benchmark 全景

09 · 数据策略四象限

10 · 市场格局：海外玩家深度解析

11 · 市场格局：中国梯队全景

12 · 商业化时间表与拐点信号

13 · 实战 Checklist + 总结

2023 年 Google 的 RT-2 让所有人相信：把 VLM 的视觉-语言能力延伸到动作 token，机器人就有了"大脑"。从此 RT-2 → OpenVLA → π0 → AgiBot GO-1 → Figure Helix → GR-2 → π0.5，VLA 成了具身智能的"标准答案"。

但到 2026 年，行业突然冷静下来：VLA 模型在真机泛化、长程任务、接触丰富场景上集体撞墙。同期，世界模型从 DeepMind Genie、Wayve GAIA、1X World Model、Meta V-JEPA-2 一路杀回——并在 ICLR 2026 上以 WMPO 为代表，提出了"在想象中做 RL"的新范式。

与之同步，资本市场两个月内向中国具身智能砸进 200 亿人民币，宇树、智元、银河通用集体冲入百亿估值，智元 IPO 估值 420 亿，银河通用以 30 亿美金估值刷新行业纪录——技术路线分裂正在被资本放大成产业站队。

于是核心问题摆到桌面上：VLA 是终局，还是过渡？谁会赢下这场"具身大模型"的卡位赛？

"VLA 解决的是怎么做，世界模型解决的是会发生什么。 没有后者，前者只能靠堆数据硬怼。" —— 一位国内具身大厂技术负责人的私下评价

01 · 形式化：VLA 到底是什么

抛开"VLA 就是会动的多模态大模型"这种口语化描述，严格定义如下：

FORMAL DEFINITION · VLA

πVLA(at:t+H|ot-k:t,l,pt) =Decoder(VLM(ot-k:t,l),pt) ot-k:t: 当前及历史 k 帧观测（多视角 RGB / RGB-D / 深度） l : 自然语言指令 pt : 本体状态（关节角 / 末端 pose / 力反馈） at:t+H: 未来 H 步动作 chunk（H ∈ [4, 50]）训练目标:L = -Σ log π(a* | o, l, p) # BC 数据: 真机遥操 + 人类示范 + sim 轨迹 + 跨 embodiment 预训练

几个工程选择决定了一个 VLA 是 2023 风格还是 2026 风格：

Action Representation

离散 binning token（RT-2 风格，256 bin × 7 DoF = 1792 vocab）→ 连续回归（ACT、π0）→ Diffusion / Flow Matching（π0、RDT-1B、CogACT）。趋势是连续 + 流匹配，因为接触丰富任务对量化误差极敏感（实测 256 bin 下力控任务成功率比连续低 20+ 个点）。

Action Chunking & 推理频率

一次预测 H 步（H=8~50），用 temporal ensemble 平滑。chunking 把复合误差从 O(T²) 降到 O(T·H)。代价是推理时间——π0 在 4090 上单 chunk ~80ms，必须搭配 KV cache + action expert 蒸馏才能上 50Hz。

FAST Tokenization

Physical Intelligence 2024 提出：对 chunk 做 DCT，再对系数做 BPE。50 步 × 7 DoF 从 350 → ~30 token，序列长度 -10×，长程任务 SOTA。已成 2026 行业新基线，OpenVLA-OFT、CogACT、π0.5 全在用。

Backbone 选择

PaLI-3 / Llama-2-7B / Qwen2-VL / SigLIP-So400m + Llama。一个被忽略的事实：在 1B-7B 区间，backbone 大小对真机成功率几乎无影响——OpenVLA-7B vs OpenVLA-1B 差距 <3%。瓶颈不在 VLM。

02 · 算法解剖：Diffusion / Flow Matching / FAST

这一章是给真正在写代码的人看的。三种主流 action head 的核心数学和工程取舍：

2.1 · DIFFUSION POLICY

把动作生成建模成去噪

Chi et al. (2023) 把 DDPM 搬到机器人控制。前向加噪 a_τ = √ᾱ_τ·a_0 + √(1-ᾱ_τ)·ε，反向用条件 U-Net 预测噪声 ε(a_τ, τ, o)。

# Training (DDPM) τ ~ U(1, T); ε ~ N(0, I) a_τ = √ᾱ_τ · a_0 + √(1-ᾱ_τ) · ε L = ‖ε - ε_θ(a_τ, τ, obs)‖² # Sampling (DDIM, 10 steps) for τ in reversed(schedule): a = denoise_step(a, τ, obs)

优势：表达多模态分布（同一观测下多种合理动作）；劣势：推理需要 10-100 步去噪，慢。工程对策：DDIM / DPM-Solver++ 把步数压到 5-10；更激进的方向是 Consistency Policy（Prasad et al., 2024），单步生成，推理速度 10×，已用于 1X 量产管线。

2.2 · FLOW MATCHING

从噪声到动作的"直线"

π0、π0.5 用的就是它。核心思想：不学反向 SDE，直接学一条常微分场 v_θ(a_t, t, obs)，把噪声样本沿场积分到目标动作。损失是简单的 conditional flow matching：

t ~ U(0, 1); a_0 ~ N(0, I) a_t = (1-t)·a_0 + t·a_1 # 直线插值 target = a_1 - a_0 # 速度场 L = ‖v_θ(a_t, t, obs) - target‖²

相比 DDPM，训练更稳、采样路径更短（5 步可达 SOTA）、可与 LLM transformer 直接拼接。π0 的 action expert 就是一个 300M flow matching head，挂在 PaliGemma 后面，整体在 7B 参数下推理 ~50Hz。这是 2026 年的事实标配。

2.3 · FAST TOKENIZATION

把动作压进频域

朴素 binning：50 步 × 7 DoF = 350 token，太长且高度冗余（人类动作低频信号占 90%+ 能量）。FAST 流程：

▸ Step 1：每个 DoF 做 1D-DCT，保留低频系数（典型截断到 25%）。

▸ Step 2：系数量化到 8-bit，跨 DoF 拼接成一维序列。

▸ Step 3：BPE 学一个 ~1024 vocab，进一步压缩。

最终：50×7 = 350 raw → ~30 token，序列长度 -10×，长程任务 SOTA，且与离散 VLA（如 OpenVLA）直接兼容。OpenVLA-OFT、CogACT、π0.5 全部默认开启。

▎ Action Head 横向对比

DDPM Diffusion · 表达力最强 · 推理慢 · 训练稳 · 适合离线策略

Flow Matching · 表达力强 · 推理快（5 步） · 训练最稳 · 主流 SOTA

FAST + 离散 token · 与 LLM 完全同构 · 推理快 · 表达力受量化限制

Consistency Policy · 单步推理 · 蒸馏代价高 · 量产首选

03 · VLA 撞上的三堵墙（含定量数据）

2025 下半年到 2026 年初，多家具身大厂内部评估都指向同一件事：纯 VLA scaling 边际收益急剧下降。原因可以收敛成三堵墙——

WALL 1 · DATA

数据墙：比 VLM 数据少 5 个数量级

直观对比：

▸ GPT-4 级 VLM：~10¹³ 训练 token（互联网图文）

▸ Open-X-Embodiment：~1M episodes ≈ 10⁹ steps

▸ 智元 AgiBot World：~100 万真机 episodes（2026 公开）

▸ π0 训练集：~10000 小时跨 embodiment 真机数据

差距 4-5 个数量级。更糟的是：真机数据不可互联网爬取。一台机器人一天产 ~100 episodes，1000 台机器人一年也只有 ~3.6×10⁷ episodes，带宽根本撑不到 LLM 那种 scaling law。

Physical Intelligence 内部数据：把训练数据从 1000h 加到 10000h，LIBERO-Goal 成功率 +6%；从 10000h 加到 30000h，只 +1.5%。这不是 plateau 的边缘，这是 plateau 本身。

WALL 2 · GENERALIZATION

泛化墙：三轴 OOD 同时叠加

VLA 同时面对三种分布偏移：

▸ 视觉 OOD：新光照、新背景、新相机标定。CLIP-style 编码器对域漂移敏感度比想象中高。

▸ 物体 OOD：新形状、新材质、新摩擦系数。BC 没有"物理常识"，软物体、玻璃、织物全部翻车。

▸ 本体 OOD：新 embodiment（不同臂长 / 灵巧手 / 双臂构型）。Action space 维度本身在变。

▎ 一组真实评测数字（CogACT / π0.5 内部，2025 Q4）

同 embodiment + 同物体 + 同场景：~92%

+ 视觉 OOD：~75%

+ 物体 OOD：~58%

+ 本体 OOD：~32%

三轴 OOD 同时：<15%

这不是"再多收点数据就能修"。OOD 衰减斜率 ≈ -0.6/axis，你必须能用非真机数据（人类视频 / 仿真 / 想象 rollout）补充覆盖率，否则永远卡在演示场景。

WALL 3 · PHYSICS / CAUSALITY

物理墙：BC 学不到因果

最深的一堵。VLA 本质是条件 BC——只学到了"专家在这个观测下会做什么动作"，没学到"做这个动作之后世界会变成什么样"。

▸ 不会做反事实推理（"换个角度抓会不会更稳？"）

▸ 不会做长程规划（>10s 任务成功率断崖下跌）

▸ 错误一旦发生无法自我修正（不知道"该恢复到什么状态"）

▸ 接触动力学完全靠"见过类似 demo"硬记，没有 inductive bias

这堵墙告诉我们：没有显式的世界动力学，VLA 永远是反应式策略，不是智能体。这正是世界模型回归的逻辑起点。

04 · 世界模型回归：四种架构谱系

"世界模型"不是新概念——Schmidhuber 1990 就提了。它在 2024-2026 走出实验室，变成具身智能事实上的"第二只脚"。但说"世界模型"其实模糊，因为它至少分四种架构，目标和工程取舍完全不同：

A · RSSM 系（Recurrent State Space Model）

代表：Dreamer V1-V3、DayDreamer、TD-MPC2

Encoder 把观测压成 latent z，RNN 学转移 z_{t+1} = f(z_t, a_t)。policy 全程在 latent 中 rollout。

优势：训练样本效率极高（DreamerV3 在 Atari 100k 上 SOTA）劣势：latent 维度低，难表达高保真视觉；几乎不与 VLM 兼容

B · Transformer Dynamics

代表：IRIS、TWM、Genie-1（latent action）

用 VQ-VAE 把帧编码成离散 token，Transformer 自回归预测下一帧 token + reward。Genie 的关键创新是从无监督视频里学出 latent action codebook（IDM），让纯视频也能"被控制"。

优势：可扩展、与 LLM 工具链完全兼容、推理可分块加速劣势：高保真长视频生成代价高

C · Diffusion Video as World Model

代表：GAIA-1/2、1X World Model、Wayve、UniSim、RoboDreamer

把可控视频生成模型当 simulator：输入历史帧 + action condition → 输出未来帧。Wayve GAIA-2 已能稳定生成 ~30 秒 720p 驾驶 rollout，1X World Model 能为 EVE / NEO 生成第一人称未来视频。

优势：保真度最高、可视化直观、可继承大视频生成模型权重劣势：单帧推理 100ms+，难做实时；rollout 误差累积明显

D · JEPA 系（Joint-Embedding Predictive Architecture）

代表：V-JEPA-2、I-JEPA、AC-JEPA

LeCun 的核心赌注：不重建像素，只在 latent 空间预测未来表征。损失是 latent regression 而非像素 L2，避免把 capacity 浪费在"画窗帘的纹理"上。

优势：表征质量高、推理快、训练稳劣势：可视化困难，工业界 buy-in 慢

▎ 四种架构 · 工业适用性矩阵

需要"想象 RL 训练" → A (RSSM) 或 D (JEPA)，速度优先

需要"高保真视觉评估" → C (Diffusion Video)

需要"复用 LLM 基建" → B (Transformer dynamics)

需要"互联网视频规模预训练" → B 或 C，配合 latent action 推断

05 · 三条路线的真正对决

站在 2026 年中，业界事实分裂为三条路线，每条都有重磅玩家在押注：

ROUTE A · SCALE THE VLA

纯 VLA scaling 派

代表：Physical Intelligence π0/π0.5、AgiBot GO-1/G2、Figure Helix、星动 ERA-42。

核心信念：数据是答案，scaling 没结束。

关键武器：跨 embodiment 数据、Open-X、海量遥操、co-training（人类视频 + 机器人）、FAST tokenization。

软肋：物理墙没法靠数据穿过；data efficiency 拉胯；OOD 衰减无法收敛。

ROUTE B · VLA + WORLD MODEL

混合派（当前最被看好）

代表：WMPO、Wayve、1X、部分 Tesla Optimus 路线、银河通用 GraspVLA + 世界模型混合栈、清北一批 ICLR/CVPR 2026 工作。

核心信念：BC 给"先验"，WM 给"动力学"，RL-in-imagination 把两者粘合。

关键武器：可控视频 / latent rollout + 想象 RL（PPO / GRPO / DreamerV3 风格）+ sim2real 校准。

软肋：世界模型本身的训练、evaluation 与覆盖率非常难；rollout 误差累积仍未根除。

ROUTE C · WORLD ACTION MODEL

激进派（World Model 即 Policy）

代表：Genie-Action 系、V-JEPA 后继路线、若干 ICLR 2026 黑马、自变量机器人部分研究线。

核心信念：动作只是世界模型的潜变量。学好 world，policy 自动浮出来。

关键武器：latent action（IDM/FDM）、joint embedding predictive、planning by inference（CEM/MPC over WM）。

软肋：实时性差，落到真机控制频率（30-100Hz）非常吃工程；尚未在真机长程任务上证明自己。

06 · WMPO 深度拆解：在想象中做 RL

Route B 最具代表性的算法是 WMPO（World-Model Policy Optimization, ICLR 2026）。它解决的核心痛点：真机 RL 太贵太危险，sim RL 又有 sim2real gap，那能不能用世界模型当 sim？

PSEUDOCODE · WMPO Full Pipeline

# Stage 1 · 训练 World Model（action-conditioned dynamics）WM = train_world_model(D_video + D_robot, loss="latent_next_pred + reward_pred")# Stage 2 · BC 预热 VLAπ = pretrain_vla(D_demo, loss="flow_matching")# Stage 3 · 想象 RL：完全在 WM 内 rolloutfor iter inrange(N): # 真实初始状态 fork 多条想象 z0 = WM.encode(o_real) trajs = [] for b inrange(B): # 并行 rollout z, traj = z0, [] for t inrange(H): # H ≤ 30 防误差爆炸 a = π(z, l) + ξ # 探索噪声 z', r̂ = WM.step(z, a) # 想象动力学 + 奖励 traj.append((z, a, r̂)) z = z' trajs.append(traj) # 优势估计 + 策略更新（GRPO / PPO 风格） π = update_policy(π, trajs, advantage=GAE(r̂))# Stage 4 · 真机微调（小数据量纠正想象偏差）π = finetune_on_real(π, D_real_small, lr=1e-5)

几个工程细节决定 WMPO 风格能不能 work：

① WM 必须 action-conditioned。不能只生成被动视频，否则 policy 没有 gradient。

② Reward 必须 latent-computable。用 VLM-as-judge（Gemini / GPT-4V）在 latent 上算稀疏奖励，是 2026 行业 hack。

③ Rollout 长度 ≤ 30 帧。实测 WM 在 H>50 误差呈指数发散，policy 学到"在错误想象里最优"。

④ 真实-想象交替。每 K 个想象 iter 必须穿插一次真机/真 sim rollout 校准，否则 reward hacking 必出现。

⑤ Trust region。π 与 π_BC 的 KL 必须裁剪，否则 policy 漂移到 WM 覆盖外的 action 空间。

⚠ WMPO 常见工程陷阱

▸ Reward Hacking：policy 学会"骗"WM（生成看起来完成但物理不可信的轨迹）。对策：reward model 与 WM 解耦训练。

▸ WM Underfit Tail：罕见 action 在 WM 中转移不准，policy 偏偏会主动探索这些方向。对策：action coverage curriculum。

▸ Latent Drift：长 rollout 后 z 漂出训练分布。对策：周期性 z ← WM.encode(WM.decode(z)) 投影。

▸ Sim-Imagination Gap：想象优秀但真机仍翻车。对策：真机微调阶段必须包含对抗扰动数据。

07 · sim2real 技术栈：被低估的工程难点

无论 Route A/B/C，最后一公里都要回到真机。sim2real 不是"加点 domain randomization"那么简单，2026 年的工业栈至少包括五层：

L1 · 高保真物理引擎

IsaacLab（GPU 并行 RL）+ MuJoCo MJX（接触模型最准）+ Genesis（2024 起新 SOTA，速度 10×）。柔性体、流体、布料仍是软肋。

L2 · Domain Randomization

物理参数（摩擦 / 质量 / 阻尼）+ 视觉（光照 / 纹理 / 相机内参）+ 控制噪声。"过 randomize"会损害最终性能，需要曲线学习。

L3 · System Identification

用真机少量数据反向标定仿真参数。Real-to-Sim-to-Real 闭环（如 RialTo 2024、ASID）已成标配。

L4 · Visual Sim2Real

3D Gaussian Splatting / NeRF 用真机扫描重建场景，把仿真渲染拉到真机分布。配合 Cross-Reality Co-training（mixed real+sim batch）效果最佳。

L5 · 在线 Residual Policy

π_real(s) = π_sim(s) + Δπ(s)，Δπ 用真机小数据 fine-tune。比全量重训便宜 100×，是 1X / Figure / 银河通用都在用的"最后一公里"。

08 · 评估：用什么证明你的路线更好

具身智能的 benchmark 远比 LLM 复杂——sim 与真机有 gap，单 benchmark 极易被刷爆。一个负责任的评估至少要覆盖：

▎ 主流具身 Benchmark 一览（2026）

LIBERO

仿真桌面操作，4 split（Spatial/Object/Goal/Long）。SOTA VLA 已 ~95%，逼近天花板，鉴别力下降。

SIMPLER-Env

Google 2024 提出的"sim 替代真机"评估，与真机相关性 r=0.87，是 VLA 论文事实标准。

RoboCasa

100 个厨房任务，5500 个 3D 资产，强调多样化 + 长程，是 2025-2026 的 OOD 试金石。

CALVIN

长程语言条件操作，34 任务连续执行，专测 long-horizon。

Open-X-Embodiment

数据集而非 benchmark，但是跨 embodiment 评估的事实底盘（22 种机器人）。

AgiBot World Challenge

智元 2025 推出，217 个真机长程任务，是国内最权威的真机评测基准。

RoboArena / EmbodiedEval

2025-2026 新出的统一榜单，多家厂商联合打分，开始对标 LMSYS 在 LLM 圈的地位。

除了任务成功率，2026 年值得跟踪的指标：

▸ OOD 鲁棒性曲线：成功率随分布偏移程度的衰减斜率（数值越平越好）

▸ Data Efficiency：达到 X% 成功所需 demo 数（同 task 下横比）

▸ Recovery Rate：人为扰动后能否回到任务轨迹

▸ sim2real Correlation：sim 上 +1% 是否真能在真机上 +1%

▸ Real-time Feasibility：策略推理频率（必须 ≥30Hz 才能进真机）

▸ Cost-per-Success：单个成功 trial 的训练 + 推理总成本（被严重低估的工业指标）

09 · 数据策略四象限

VLA 也好，World Model 也好，最终都吃同一种"米"。当下数据来源按"成本 / 真实度"分四象限：

① 真机遥操作 · 高真实 · 高成本

质量最高、成本最高。ALOHA / GELLO / Mobile ALOHA / UMI 把单 episode 成本从 100 元打到 10 元，但仍是数量级瓶颈。智元推出"灵犀 X2 数采工厂"，单日产能 ~1 万 episodes。

② 大规模仿真 · 中真实 · 低成本

IsaacLab / RoboCasa / Genesis / MuJoCo MJX。几乎免费，但 sim2real gap 仍是头号痛点。配合 DR + 在线 sim2real 校准是当前最优解。

③ 人类视频 + Latent Action 推断 · 中真实 · 极低成本

Genie / LAPA / GR-1/GR-2 / Vid2Robot：从无标签视频学 latent action 再绑定到机器人本体。把"互联网视频规模"接入具身的最有希望路径。Ego4D（3670h）+ HowTo100M（135M videos）是当下首选。

④ 世界模型自生成 · 想象真实 · 边际成本递减

用 WM 自己 rollout"想象数据"训 policy。把数据问题转化成 WM 训练问题——这正是 Route B 的赌注。一旦 WM 收敛，边际数据成本 ≈ GPU 推理成本。

Physical Intelligence 已公开承认：π0.5 训练数据中 ~30% 来自人类视频，π0.6 计划提升到 60%。这是行业风向标——"互联网视频规模"已经不是论文题目，是工业事实。

10 · 市场格局：海外玩家深度解析

海外阵营的特征：技术路线明确，估值高度集中在头部 5-6 家。把它们按"路线 + 商业化优先级"画成一张牌桌：

FIGURE AI 估值约 $39B（2025 E 轮）

最贵的人形机器人公司

路线：自研 VLA「Helix」，主打双臂协同 + 通用家庭/工厂。曾用 OpenAI 模型，2024 年 2 月分手后全面转自研。

关键节点：BMW 工厂部署、与 Brookfield 合作家庭场景数据采集、Figure 02 → Figure 03 量产。

赌注：纯 VLA scaling + 大规模真机数据飞轮。是 Route A 的旗手。

PHYSICAL INTELLIGENCE (PI) 估值 ~$5B（2024 B 轮）

VLA 学术标杆

团队：UC Berkeley + Stanford + Google 班底，π0 / π0.5 / FAST 都出自此。Sergey Levine、Chelsea Finn 坐镇。

路线：跨 embodiment 通用 VLA + 海量数据 + Flow Matching action head。论文产能行业第一。

软肋：自己不做硬件，依赖合作伙伴部署，商业化节奏被卡。

赌注：成为"机器人界的 Anthropic"——卖模型而非整机。

TESLA OPTIMUS 不单独估值（Tesla 内部）

最被低估、也最不确定的玩家

路线：复用 FSD 的 end-to-end 视觉栈 + 工厂自有数据。Gen 3 据 Musk 公开口径目标售价 20K-30K。

关键优势：唯一同时拥有世界级 AI、量产能力、自有应用场景（工厂）的玩家。

赌注：从 FSD 复制"垂直整合"打法，做"机器人界的 iPhone"。

1X TECHNOLOGIES 估值约 $1B+（OpenAI 投资）

最早押注世界模型的人形玩家

路线：EVE → NEO，2024 公开自家 World Model，Route B 的标杆样本。

商业化：NEO 家庭机器人定价约 $20K，2026 年开始向北美家庭交付。

赌注：用 World Model 跨过家庭场景的"长尾任务"鸿沟。

SKILD AI 估值约 $4.5B（2025 B 轮）

CMU 班底，定位"机器人 brain"

路线：Deepak Pathak（CMU）创办，做跨 embodiment 通用大模型，不做硬件。

赌注：与 PI 类似——"机器人界的 OpenAI"。但商业模式与硬件公司天然存在合作-竞争张力。

WAYVE 估值约 $2B（NVIDIA / SoftBank 投资）

驾驶域世界模型先驱

路线：GAIA-1 / GAIA-2 自驾世界模型 + 端到端 driver。技术外溢效应——它的 WM 思路被整个具身界借鉴。

赌注：自驾仍是世界模型最大的真实战场。

11 · 市场格局：中国梯队全景

2026 年开年两个月，中国具身赛道融资金额突破 200 亿人民币，行业进入"清场年"——头部三家估值百亿+，腰部公司加速分化。

▎ 第一梯队 · 百亿+ 估值俱乐部

宇树科技（估值约 500 亿）· 硬件起家，G1/H1 走量驱动现金流，2026 IPO 节奏中。

智元机器人 AgiBot（IPO 估值约 420 亿）· 远征系列 + 灵犀 X2 数采工厂 + GO-1/G2 大模型，技术 + 数据闭环最完整。

银河通用 Galbot（估值 30 亿美金，~210 亿人民币）· 中国移动领投，具身领域当前最高估值，定位"通用具身大模型 + 整机"。

▎ 第二梯队 · 百亿前夜

星动纪元（估值约 100 亿）· 清华系，3 月完成 10 亿融资，主打 ERA-42 大模型 + 全栈自研人形。

智平方（估值约 100 亿）· 2 月连续两轮近 20 亿，已进入宁德时代工厂产线。"产业落地派"代表。

千寻智能 · Spirit V1 大模型 + 自研整机，京东系深度参与。

自变量机器人 · WALL-A 大模型，世界模型 + 端到端路线（Route C 倾向）。

▎ 第三梯队 · 垂直 / 技术差异化

逐际动力 LimX · 双足 + 操作一体化，香港背景。

众擎机器人、乐聚、傅利叶 Fourier · 整机 + 工业场景。

穹彻智能 Noematrix · 上交大系，操作大模型 OmniCore。

跨维智能 Dexmal、有鹿机器人、非夕 Flexiv · 工业 / 商用细分龙头。

▎ 中外典型玩家路线选择

Route A (纯 VLA)：Figure、PI、Skild、智元、星动、Helix 路线

Route B (VLA + WM)：1X、Wayve、银河通用、Tesla（部分）、清北学界主流

Route C (World Action)：自变量、Genie 系学术、V-JEPA 后继路线

12 · 商业化时间表与拐点信号

把当前主流玩家的公开路线图叠在一起，可以画出一张比较清晰的"具身智能落地节奏图"：

2024-2025 · 已发生

VLA 成为事实标准；FAST、Flow Matching 落地；Open-X 跨 embodiment 数据集形成；π0 / GO-1 / Helix 等 SOTA VLA 公开。

2026 · 当前年

世界模型回归（WMPO、1X WM、GAIA-2）；中国"清场年"，头部估值集中；首批工业场景规模化部署（汽车厂 / 物流仓 / 3C 装配）；NEO 家庭机器人开始向消费者交付。

2027 · 预期

头部 IPO 落地（智元、宇树）；Route B 路线在真机长程任务上首次明确超越 Route A；首批人形机器人达到 1 万台 / 年量产门槛；Optimus Gen 3 量产试销。

2028+ · 大胆预测

"具身基础模型"格局收敛到 3-5 家；通用家庭场景出现首个百万级用户产品；硬件价格跌破 $10K；可能出现机器人界的"ChatGPT 时刻"。

▎ 五个值得盯紧的拐点信号

▸ ① 真机长程任务成功率突破 70%（CALVIN / RoboCasa LH）

▸ ② Route B 在公开 benchmark 上首次系统性超越 Route A

▸ ③ 单家公司年交付量突破 1 万台（决定数据飞轮能否启动）

▸ ④ 出现"机器人界 LMSYS"（统一公开榜单 + 真机评测）

▸ ⑤ 互联网视频规模训练成主流（人类视频占训练数据 > 50%）

13 · 实战 Checklist（2026 加深版）

□ 1. action head 别用纯离散 token。Diffusion / Flow-matching + chunking 已是 2026 基线。

□ 2. backbone 不要超过 7B。瓶颈在数据和动力学，不在参数。

□ 3. 默认开 FAST 或等价频域 tokenization。chunking ≥ 25 时优势显著。

□ 4. 评估必须三轴 OOD 拆分。视觉 / 物体 / 本体一起报，否则数字没参考价值。

□ 5. 留一条 World Model 通道。哪怕 v0 只是 action-conditioned video。

□ 6. RL 微调先在 WM / sim 里跑。直接真机 RL 是 2026 反模式。

□ 7. sim2real 必须有量化 correlation。否则刷的 sim 分数对真机毫无意义。

□ 8. 数据来源至少覆盖三种（真机 + sim + 人类视频）。单一源 VLA 已被反复证明不够。

□ 9. 推理频率纳入约束。<30Hz 的 SOTA 在真机等于不可用。

□ 10. action head 蒸馏到 Consistency Policy。量产场景必备。

□ 11. residual policy 别省。最后一公里靠它。

□ 12. 失败案例进 eval set。每次真机翻车都该转化成回归 task。

14 · 写在最后：VLA 不死，但已经不够

VLA 不会消失。它太好用、太简洁、太适合做 BC 预热。所有 Route B / C 方法都需要一个"VLA 风格"的初始策略——这是已被验证的事实。

但 2026 之后，仅靠 VLA scaling 就期待通用具身智能，已经没有人会下这个赌注了。世界模型给了一条新的"复利曲线"：互联网视频 → latent action → 想象 RL → 真机微调。它把数据问题、泛化问题、物理问题，第一次同时撬开一道缝。

从产业格局看，海外是「Figure 押 A、1X 押 B、Tesla 押垂直整合、PI/Skild 卖大脑」四线分立；国内则是「智元数据飞轮、银河通用通用大模型、宇树硬件现金流、星动技术全栈、智平方产业落地」多点开花。资本两个月 200 亿砸下来，路线分歧反而更尖锐而非收敛——这意味着 2027-2028 年必有一次大洗牌。

所以下次再有人问你"用 VLA 还是世界模型"，正确答案是——都用，且让它们互相喂饭。这才是 2026 具身智能真正的样子。

KEY TAKEAWAY

VLA 教会了机器人怎么做，世界模型才能让它想清楚要做什么。

具身智能的下半场，从这里开始。