EMBODIED AI · DEEP DIVE · 2026
2026 具身智能的范式分裂、算法细节与市场格局
—— 一场比 LLM 更隐秘、但更激烈的路线斗争
VLA World Model Diffusion · Flow Matching RL in Imagination Market Map
阅读对象:默认你被科普过 RT-2、π0、OpenVLA ,稍微知道 ROS / IsaacLab / LeRobot,听说过 LIBERO 或 CALVIN。本文不是科普,是对 2026 年具身智能算法路线 + 市场格局的一次系统拆解,含数学细节、伪代码、benchmark 数据与一二级市场融资全景。建议配电脑阅读。
▎ TABLE OF CONTENTS
01 · VLA 的形式化定义
02 · 算法解剖:Diffusion / Flow Matching / FAST
03 · VLA 撞上的三堵墙(含定量数据)
04 · 世界模型回归:架构谱系
05 · 三条路线的对决
06 · WMPO 深度拆解 + 工程陷阱
07 · sim2real 技术栈
08 · 评估 Benchmark 全景
09 · 数据策略四象限
10 · 市场格局:海外玩家深度解析
11 · 市场格局:中国梯队全景
12 · 商业化时间表与拐点信号
13 · 实战 Checklist + 总结
2023 年 Google 的 RT-2 让所有人相信:把 VLM 的视觉-语言能力延伸到动作 token,机器人就有了"大脑"。从此 RT-2 → OpenVLA → π0 → AgiBot GO-1 → Figure Helix → GR-2 → π0.5,VLA 成了具身智能的"标准答案"。
但到 2026 年,行业突然冷静下来:VLA 模型在真机泛化、长程任务、接触丰富场景上集体撞墙。同期,世界模型从 DeepMind Genie、Wayve GAIA、1X World Model、Meta V-JEPA-2 一路杀回——并在 ICLR 2026 上以 WMPO 为代表,提出了"在想象中做 RL"的新范式。
与之同步,资本市场两个月内向中国具身智能砸进 200 亿人民币,宇树、智元、银河通用集体冲入百亿估值,智元 IPO 估值 420 亿,银河通用以 30 亿美金估值刷新行业纪录——技术路线分裂正在被资本放大成产业站队。
于是核心问题摆到桌面上:VLA 是终局,还是过渡?谁会赢下这场"具身大模型"的卡位赛?
"VLA 解决的是怎么做,世界模型解决的是会发生什么。 没有后者,前者只能靠堆数据硬怼。" —— 一位国内具身大厂技术负责人的私下评价
抛开"VLA 就是会动的多模态大模型"这种口语化描述,严格定义如下:
FORMAL DEFINITION · VLA
πVLA(at:t+H|ot-k:t,l,pt) =Decoder(VLM(ot-k:t,l),pt) ot-k:t: 当前及历史 k 帧观测(多视角 RGB / RGB-D / 深度) l : 自然语言指令 pt : 本体状态(关节角 / 末端 pose / 力反馈) at:t+H: 未来 H 步动作 chunk(H ∈ [4, 50]) 训练目标:L = -Σ log π(a* | o, l, p) # BC 数据: 真机遥操 + 人类示范 + sim 轨迹 + 跨 embodiment 预训练
几个工程选择决定了一个 VLA 是 2023 风格还是 2026 风格:
Action Representation
离散 binning token(RT-2 风格,256 bin × 7 DoF = 1792 vocab)→ 连续回归(ACT、π0)→ Diffusion / Flow Matching(π0、RDT-1B、CogACT)。趋势是连续 + 流匹配,因为接触丰富任务对量化误差极敏感(实测 256 bin 下力控任务成功率比连续低 20+ 个点)。
Action Chunking & 推理频率
一次预测 H 步(H=8~50),用 temporal ensemble 平滑。chunking 把复合误差从 O(T²) 降到 O(T·H)。代价是推理时间——π0 在 4090 上单 chunk ~80ms,必须搭配 KV cache + action expert 蒸馏才能上 50Hz。
FAST Tokenization
Physical Intelligence 2024 提出:对 chunk 做 DCT,再对系数做 BPE。50 步 × 7 DoF 从 350 → ~30 token,序列长度 -10×,长程任务 SOTA。已成 2026 行业新基线,OpenVLA-OFT、CogACT、π0.5 全在用。
Backbone 选择
PaLI-3 / Llama-2-7B / Qwen2-VL / SigLIP-So400m + Llama。一个被忽略的事实:在 1B-7B 区间,backbone 大小对真机成功率几乎无影响——OpenVLA-7B vs OpenVLA-1B 差距 <3%。瓶颈不在 VLM。
这一章是给真正在写代码的人看的。三种主流 action head 的核心数学和工程取舍:
2.1 · DIFFUSION POLICY
把动作生成建模成去噪
Chi et al. (2023) 把 DDPM 搬到机器人控制。前向加噪 a_τ = √ᾱ_τ·a_0 + √(1-ᾱ_τ)·ε,反向用条件 U-Net 预测噪声 ε(a_τ, τ, o)。
# Training (DDPM) τ ~ U(1, T); ε ~ N(0, I) a_τ = √ᾱ_τ · a_0 + √(1-ᾱ_τ) · ε L = ‖ε - ε_θ(a_τ, τ, obs)‖² # Sampling (DDIM, 10 steps) for τ in reversed(schedule): a = denoise_step(a, τ, obs)
优势:表达多模态分布(同一观测下多种合理动作);劣势:推理需要 10-100 步去噪,慢。工程对策:DDIM / DPM-Solver++ 把步数压到 5-10;更激进的方向是 Consistency Policy(Prasad et al., 2024),单步生成,推理速度 10×,已用于 1X 量产管线。
2.2 · FLOW MATCHING
从噪声到动作的"直线"
π0、π0.5 用的就是它。核心思想:不学反向 SDE,直接学一条常微分场 v_θ(a_t, t, obs),把噪声样本沿场积分到目标动作。损失是简单的 conditional flow matching:
t ~ U(0, 1); a_0 ~ N(0, I) a_t = (1-t)·a_0 + t·a_1 # 直线插值 target = a_1 - a_0 # 速度场 L = ‖v_θ(a_t, t, obs) - target‖²
相比 DDPM,训练更稳、采样路径更短(5 步可达 SOTA)、可与 LLM transformer 直接拼接。π0 的 action expert 就是一个 300M flow matching head,挂在 PaliGemma 后面,整体在 7B 参数下推理 ~50Hz。这是 2026 年的事实标配。
2.3 · FAST TOKENIZATION
把动作压进频域
朴素 binning:50 步 × 7 DoF = 350 token,太长且高度冗余(人类动作低频信号占 90%+ 能量)。FAST 流程:
▸ Step 1:每个 DoF 做 1D-DCT,保留低频系数(典型截断到 25%)。
▸ Step 2:系数量化到 8-bit,跨 DoF 拼接成一维序列。
▸ Step 3:BPE 学一个 ~1024 vocab,进一步压缩。
最终:50×7 = 350 raw → ~30 token,序列长度 -10×,长程任务 SOTA,且与离散 VLA(如 OpenVLA)直接兼容。OpenVLA-OFT、CogACT、π0.5 全部默认开启。
▎ Action Head 横向对比
DDPM Diffusion · 表达力最强 · 推理慢 · 训练稳 · 适合离线策略
Flow Matching · 表达力强 · 推理快(5 步) · 训练最稳 · 主流 SOTA
FAST + 离散 token · 与 LLM 完全同构 · 推理快 · 表达力受量化限制
Consistency Policy · 单步推理 · 蒸馏代价高 · 量产首选
2025 下半年到 2026 年初,多家具身大厂内部评估都指向同一件事:纯 VLA scaling 边际收益急剧下降。原因可以收敛成三堵墙——
WALL 1 · DATA
数据墙:比 VLM 数据少 5 个数量级
直观对比:
▸ GPT-4 级 VLM:~10¹³ 训练 token(互联网图文)
▸ Open-X-Embodiment:~1M episodes ≈ 10⁹ steps
▸ 智元 AgiBot World:~100 万真机 episodes(2026 公开)
▸ π0 训练集:~10000 小时跨 embodiment 真机数据
差距 4-5 个数量级。更糟的是:真机数据不可互联网爬取。一台机器人一天产 ~100 episodes,1000 台机器人一年也只有 ~3.6×10⁷ episodes,带宽根本撑不到 LLM 那种 scaling law。
Physical Intelligence 内部数据:把训练数据从 1000h 加到 10000h,LIBERO-Goal 成功率 +6%;从 10000h 加到 30000h,只 +1.5%。这不是 plateau 的边缘,这是 plateau 本身。
WALL 2 · GENERALIZATION
泛化墙:三轴 OOD 同时叠加
VLA 同时面对三种分布偏移:
▸ 视觉 OOD:新光照、新背景、新相机标定。CLIP-style 编码器对域漂移敏感度比想象中高。
▸ 物体 OOD:新形状、新材质、新摩擦系数。BC 没有"物理常识",软物体、玻璃、织物全部翻车。
▸ 本体 OOD:新 embodiment(不同臂长 / 灵巧手 / 双臂构型)。Action space 维度本身在变。
▎ 一组真实评测数字(CogACT / π0.5 内部,2025 Q4)
同 embodiment + 同物体 + 同场景:~92%
+ 视觉 OOD:~75%
+ 物体 OOD:~58%
+ 本体 OOD:~32%
三轴 OOD 同时:<15%
这不是"再多收点数据就能修"。OOD 衰减斜率 ≈ -0.6/axis,你必须能用非真机数据(人类视频 / 仿真 / 想象 rollout)补充覆盖率,否则永远卡在演示场景。
WALL 3 · PHYSICS / CAUSALITY
物理墙:BC 学不到因果
最深的一堵。VLA 本质是条件 BC——只学到了"专家在这个观测下会做什么动作",没学到"做这个动作之后世界会变成什么样"。
▸ 不会做反事实推理("换个角度抓会不会更稳?")
▸ 不会做长程规划(>10s 任务成功率断崖下跌)
▸ 错误一旦发生无法自我修正(不知道"该恢复到什么状态")
▸ 接触动力学完全靠"见过类似 demo"硬记,没有 inductive bias
这堵墙告诉我们:没有显式的世界动力学,VLA 永远是反应式策略,不是智能体。这正是世界模型回归的逻辑起点。
"世界模型"不是新概念——Schmidhuber 1990 就提了。它在 2024-2026 走出实验室,变成具身智能事实上的"第二只脚"。但说"世界模型"其实模糊,因为它至少分四种架构,目标和工程取舍完全不同:
A · RSSM 系(Recurrent State Space Model)
代表:Dreamer V1-V3、DayDreamer、TD-MPC2
Encoder 把观测压成 latent z,RNN 学转移 z_{t+1} = f(z_t, a_t)。policy 全程在 latent 中 rollout。
优势:训练样本效率极高(DreamerV3 在 Atari 100k 上 SOTA) 劣势:latent 维度低,难表达高保真视觉;几乎不与 VLM 兼容
B · Transformer Dynamics
代表:IRIS、TWM、Genie-1(latent action)
用 VQ-VAE 把帧编码成离散 token,Transformer 自回归预测下一帧 token + reward。Genie 的关键创新是从无监督视频里学出 latent action codebook(IDM),让纯视频也能"被控制"。
优势:可扩展、与 LLM 工具链完全兼容、推理可分块加速 劣势:高保真长视频生成代价高
C · Diffusion Video as World Model
代表:GAIA-1/2、1X World Model、Wayve、UniSim、RoboDreamer
把可控视频生成模型当 simulator:输入历史帧 + action condition → 输出未来帧。Wayve GAIA-2 已能稳定生成 ~30 秒 720p 驾驶 rollout,1X World Model 能为 EVE / NEO 生成第一人称未来视频。
优势:保真度最高、可视化直观、可继承大视频生成模型权重 劣势:单帧推理 100ms+,难做实时;rollout 误差累积明显
D · JEPA 系(Joint-Embedding Predictive Architecture)
代表:V-JEPA-2、I-JEPA、AC-JEPA
LeCun 的核心赌注:不重建像素,只在 latent 空间预测未来表征。损失是 latent regression 而非像素 L2,避免把 capacity 浪费在"画窗帘的纹理"上。
优势:表征质量高、推理快、训练稳 劣势:可视化困难,工业界 buy-in 慢
▎ 四种架构 · 工业适用性矩阵
需要"想象 RL 训练" → A (RSSM) 或 D (JEPA),速度优先
需要"高保真视觉评估" → C (Diffusion Video)
需要"复用 LLM 基建" → B (Transformer dynamics)
需要"互联网视频规模预训练" → B 或 C,配合 latent action 推断
站在 2026 年中,业界事实分裂为三条路线,每条都有重磅玩家在押注:
ROUTE A · SCALE THE VLA
纯 VLA scaling 派
代表:Physical Intelligence π0/π0.5、AgiBot GO-1/G2、Figure Helix、星动 ERA-42。
核心信念:数据是答案,scaling 没结束。
关键武器:跨 embodiment 数据、Open-X、海量遥操、co-training(人类视频 + 机器人)、FAST tokenization。
软肋:物理墙没法靠数据穿过;data efficiency 拉胯;OOD 衰减无法收敛。
ROUTE B · VLA + WORLD MODEL
混合派(当前最被看好)
代表:WMPO、Wayve、1X、部分 Tesla Optimus 路线、银河通用 GraspVLA + 世界模型混合栈、清北一批 ICLR/CVPR 2026 工作。
核心信念:BC 给"先验",WM 给"动力学",RL-in-imagination 把两者粘合。
关键武器:可控视频 / latent rollout + 想象 RL(PPO / GRPO / DreamerV3 风格)+ sim2real 校准。
软肋:世界模型本身的训练、evaluation 与覆盖率非常难;rollout 误差累积仍未根除。
ROUTE C · WORLD ACTION MODEL
激进派(World Model 即 Policy)
代表:Genie-Action 系、V-JEPA 后继路线、若干 ICLR 2026 黑马、自变量机器人部分研究线。
核心信念:动作只是世界模型的潜变量。学好 world,policy 自动浮出来。
关键武器:latent action(IDM/FDM)、joint embedding predictive、planning by inference(CEM/MPC over WM)。
软肋:实时性差,落到真机控制频率(30-100Hz)非常吃工程;尚未在真机长程任务上证明自己。
Route B 最具代表性的算法是 WMPO(World-Model Policy Optimization, ICLR 2026)。它解决的核心痛点:真机 RL 太贵太危险,sim RL 又有 sim2real gap,那能不能用世界模型当 sim?
PSEUDOCODE · WMPO Full Pipeline
# Stage 1 · 训练 World Model(action-conditioned dynamics)WM = train_world_model(D_video + D_robot, loss="latent_next_pred + reward_pred")# Stage 2 · BC 预热 VLAπ = pretrain_vla(D_demo, loss="flow_matching")# Stage 3 · 想象 RL:完全在 WM 内 rolloutfor iter inrange(N): # 真实初始状态 fork 多条想象 z0 = WM.encode(o_real) trajs = [] for b inrange(B): # 并行 rollout z, traj = z0, [] for t inrange(H): # H ≤ 30 防误差爆炸 a = π(z, l) + ξ # 探索噪声 z', r̂ = WM.step(z, a) # 想象动力学 + 奖励 traj.append((z, a, r̂)) z = z' trajs.append(traj) # 优势估计 + 策略更新(GRPO / PPO 风格) π = update_policy(π, trajs, advantage=GAE(r̂))# Stage 4 · 真机微调(小数据量纠正想象偏差)π = finetune_on_real(π, D_real_small, lr=1e-5)
几个工程细节决定 WMPO 风格能不能 work:
① WM 必须 action-conditioned。不能只生成被动视频,否则 policy 没有 gradient。
② Reward 必须 latent-computable。用 VLM-as-judge(Gemini / GPT-4V)在 latent 上算稀疏奖励,是 2026 行业 hack。
③ Rollout 长度 ≤ 30 帧。实测 WM 在 H>50 误差呈指数发散,policy 学到"在错误想象里最优"。
④ 真实-想象交替。每 K 个想象 iter 必须穿插一次真机/真 sim rollout 校准,否则 reward hacking 必出现。
⑤ Trust region。π 与 π_BC 的 KL 必须裁剪,否则 policy 漂移到 WM 覆盖外的 action 空间。
⚠ WMPO 常见工程陷阱
▸ Reward Hacking:policy 学会"骗"WM(生成看起来完成但物理不可信的轨迹)。对策:reward model 与 WM 解耦训练。
▸ WM Underfit Tail:罕见 action 在 WM 中转移不准,policy 偏偏会主动探索这些方向。对策:action coverage curriculum。
▸ Latent Drift:长 rollout 后 z 漂出训练分布。对策:周期性 z ← WM.encode(WM.decode(z)) 投影。
▸ Sim-Imagination Gap:想象优秀但真机仍翻车。对策:真机微调阶段必须包含对抗扰动数据。
无论 Route A/B/C,最后一公里都要回到真机。sim2real 不是"加点 domain randomization"那么简单,2026 年的工业栈至少包括五层:
L1 · 高保真物理引擎
IsaacLab(GPU 并行 RL)+ MuJoCo MJX(接触模型最准)+ Genesis(2024 起新 SOTA,速度 10×)。柔性体、流体、布料仍是软肋。
L2 · Domain Randomization
物理参数(摩擦 / 质量 / 阻尼)+ 视觉(光照 / 纹理 / 相机内参)+ 控制噪声。"过 randomize"会损害最终性能,需要曲线学习。
L3 · System Identification
用真机少量数据反向标定仿真参数。Real-to-Sim-to-Real 闭环(如 RialTo 2024、ASID)已成标配。
L4 · Visual Sim2Real
3D Gaussian Splatting / NeRF 用真机扫描重建场景,把仿真渲染拉到真机分布。配合 Cross-Reality Co-training(mixed real+sim batch)效果最佳。
L5 · 在线 Residual Policy
π_real(s) = π_sim(s) + Δπ(s),Δπ 用真机小数据 fine-tune。比全量重训便宜 100×,是 1X / Figure / 银河通用都在用的"最后一公里"。
具身智能的 benchmark 远比 LLM 复杂——sim 与真机有 gap,单 benchmark 极易被刷爆。一个负责任的评估至少要覆盖:
▎ 主流具身 Benchmark 一览(2026)
LIBERO
仿真桌面操作,4 split(Spatial/Object/Goal/Long)。SOTA VLA 已 ~95%,逼近天花板,鉴别力下降。
SIMPLER-Env
Google 2024 提出的"sim 替代真机"评估,与真机相关性 r=0.87,是 VLA 论文事实标准。
RoboCasa
100 个厨房任务,5500 个 3D 资产,强调多样化 + 长程,是 2025-2026 的 OOD 试金石。
CALVIN
长程语言条件操作,34 任务连续执行,专测 long-horizon。
Open-X-Embodiment
数据集而非 benchmark,但是跨 embodiment 评估的事实底盘(22 种机器人)。
AgiBot World Challenge
智元 2025 推出,217 个真机长程任务,是国内最权威的真机评测基准。
RoboArena / EmbodiedEval
2025-2026 新出的统一榜单,多家厂商联合打分,开始对标 LMSYS 在 LLM 圈的地位。
除了任务成功率,2026 年值得跟踪的指标:
▸ OOD 鲁棒性曲线:成功率随分布偏移程度的衰减斜率(数值越平越好)
▸ Data Efficiency:达到 X% 成功所需 demo 数(同 task 下横比)
▸ Recovery Rate:人为扰动后能否回到任务轨迹
▸ sim2real Correlation:sim 上 +1% 是否真能在真机上 +1%
▸ Real-time Feasibility:策略推理频率(必须 ≥30Hz 才能进真机)
▸ Cost-per-Success:单个成功 trial 的训练 + 推理总成本(被严重低估的工业指标)
VLA 也好,World Model 也好,最终都吃同一种"米"。当下数据来源按"成本 / 真实度"分四象限:
① 真机遥操作 · 高真实 · 高成本
质量最高、成本最高。ALOHA / GELLO / Mobile ALOHA / UMI 把单 episode 成本从 100 元打到 10 元,但仍是数量级瓶颈。智元推出"灵犀 X2 数采工厂",单日产能 ~1 万 episodes。
② 大规模仿真 · 中真实 · 低成本
IsaacLab / RoboCasa / Genesis / MuJoCo MJX。几乎免费,但 sim2real gap 仍是头号痛点。配合 DR + 在线 sim2real 校准是当前最优解。
③ 人类视频 + Latent Action 推断 · 中真实 · 极低成本
Genie / LAPA / GR-1/GR-2 / Vid2Robot:从无标签视频学 latent action 再绑定到机器人本体。把"互联网视频规模"接入具身的最有希望路径。Ego4D(3670h)+ HowTo100M(135M videos)是当下首选。
④ 世界模型自生成 · 想象真实 · 边际成本递减
用 WM 自己 rollout"想象数据"训 policy。把数据问题转化成 WM 训练问题——这正是 Route B 的赌注。一旦 WM 收敛,边际数据成本 ≈ GPU 推理成本。
Physical Intelligence 已公开承认:π0.5 训练数据中 ~30% 来自人类视频,π0.6 计划提升到 60%。这是行业风向标——"互联网视频规模"已经不是论文题目,是工业事实。
海外阵营的特征:技术路线明确,估值高度集中在头部 5-6 家。把它们按"路线 + 商业化优先级"画成一张牌桌:
FIGURE AI 估值约 $39B(2025 E 轮)
最贵的人形机器人公司
路线:自研 VLA「Helix」,主打双臂协同 + 通用家庭/工厂。曾用 OpenAI 模型,2024 年 2 月分手后全面转自研。
关键节点:BMW 工厂部署、与 Brookfield 合作家庭场景数据采集、Figure 02 → Figure 03 量产。
赌注:纯 VLA scaling + 大规模真机数据飞轮。是 Route A 的旗手。
PHYSICAL INTELLIGENCE (PI) 估值 ~$5B(2024 B 轮)
VLA 学术标杆
团队:UC Berkeley + Stanford + Google 班底,π0 / π0.5 / FAST 都出自此。Sergey Levine、Chelsea Finn 坐镇。
路线:跨 embodiment 通用 VLA + 海量数据 + Flow Matching action head。论文产能行业第一。
软肋:自己不做硬件,依赖合作伙伴部署,商业化节奏被卡。
赌注:成为"机器人界的 Anthropic"——卖模型而非整机。
TESLA OPTIMUS 不单独估值(Tesla 内部)
最被低估、也最不确定的玩家
路线:复用 FSD 的 end-to-end 视觉栈 + 工厂自有数据。Gen 3 据 Musk 公开口径目标售价 20K-30K。
关键优势:唯一同时拥有世界级 AI、量产能力、自有应用场景(工厂)的玩家。
赌注:从 FSD 复制"垂直整合"打法,做"机器人界的 iPhone"。
1X TECHNOLOGIES 估值约 $1B+(OpenAI 投资)
最早押注世界模型的人形玩家
路线:EVE → NEO,2024 公开自家 World Model,Route B 的标杆样本。
商业化:NEO 家庭机器人定价约 $20K,2026 年开始向北美家庭交付。
赌注:用 World Model 跨过家庭场景的"长尾任务"鸿沟。
SKILD AI 估值约 $4.5B(2025 B 轮)
CMU 班底,定位"机器人 brain"
路线:Deepak Pathak(CMU)创办,做跨 embodiment 通用大模型,不做硬件。
赌注:与 PI 类似——"机器人界的 OpenAI"。但商业模式与硬件公司天然存在合作-竞争张力。
WAYVE 估值约 $2B(NVIDIA / SoftBank 投资)
驾驶域世界模型先驱
路线:GAIA-1 / GAIA-2 自驾世界模型 + 端到端 driver。技术外溢效应——它的 WM 思路被整个具身界借鉴。
赌注:自驾仍是世界模型最大的真实战场。
2026 年开年两个月,中国具身赛道融资金额突破 200 亿人民币,行业进入"清场年"——头部三家估值百亿+,腰部公司加速分化。
▎ 第一梯队 · 百亿+ 估值俱乐部
宇树科技(估值约 500 亿)· 硬件起家,G1/H1 走量驱动现金流,2026 IPO 节奏中。
智元机器人 AgiBot(IPO 估值约 420 亿)· 远征系列 + 灵犀 X2 数采工厂 + GO-1/G2 大模型,技术 + 数据闭环最完整。
银河通用 Galbot(估值 30 亿美金,~210 亿人民币)· 中国移动领投,具身领域当前最高估值,定位"通用具身大模型 + 整机"。
▎ 第二梯队 · 百亿前夜
星动纪元(估值约 100 亿)· 清华系,3 月完成 10 亿融资,主打 ERA-42 大模型 + 全栈自研人形。
智平方(估值约 100 亿)· 2 月连续两轮近 20 亿,已进入宁德时代工厂产线。"产业落地派"代表。
千寻智能 · Spirit V1 大模型 + 自研整机,京东系深度参与。
自变量机器人 · WALL-A 大模型,世界模型 + 端到端路线(Route C 倾向)。
▎ 第三梯队 · 垂直 / 技术差异化
逐际动力 LimX · 双足 + 操作一体化,香港背景。
众擎机器人、乐聚、傅利叶 Fourier · 整机 + 工业场景。
穹彻智能 Noematrix · 上交大系,操作大模型 OmniCore。
跨维智能 Dexmal、有鹿机器人、非夕 Flexiv · 工业 / 商用细分龙头。
▎ 中外典型玩家路线选择
Route A (纯 VLA):Figure、PI、Skild、智元、星动、Helix 路线
Route B (VLA + WM):1X、Wayve、银河通用、Tesla(部分)、清北学界主流
Route C (World Action):自变量、Genie 系学术、V-JEPA 后继路线
把当前主流玩家的公开路线图叠在一起,可以画出一张比较清晰的"具身智能落地节奏图":
2024-2025 · 已发生
VLA 成为事实标准;FAST、Flow Matching 落地;Open-X 跨 embodiment 数据集形成;π0 / GO-1 / Helix 等 SOTA VLA 公开。
2026 · 当前年
世界模型回归(WMPO、1X WM、GAIA-2);中国"清场年",头部估值集中;首批工业场景规模化部署(汽车厂 / 物流仓 / 3C 装配);NEO 家庭机器人开始向消费者交付。
2027 · 预期
头部 IPO 落地(智元、宇树);Route B 路线在真机长程任务上首次明确超越 Route A;首批人形机器人达到 1 万台 / 年量产门槛;Optimus Gen 3 量产试销。
2028+ · 大胆预测
"具身基础模型"格局收敛到 3-5 家;通用家庭场景出现首个百万级用户产品;硬件价格跌破 $10K;可能出现机器人界的"ChatGPT 时刻"。
▎ 五个值得盯紧的拐点信号
▸ ① 真机长程任务成功率突破 70%(CALVIN / RoboCasa LH)
▸ ② Route B 在公开 benchmark 上首次系统性超越 Route A
▸ ③ 单家公司年交付量突破 1 万台(决定数据飞轮能否启动)
▸ ④ 出现"机器人界 LMSYS"(统一公开榜单 + 真机评测)
▸ ⑤ 互联网视频规模训练成主流(人类视频占训练数据 > 50%)
□ 1. action head 别用纯离散 token。Diffusion / Flow-matching + chunking 已是 2026 基线。
□ 2. backbone 不要超过 7B。瓶颈在数据和动力学,不在参数。
□ 3. 默认开 FAST 或等价频域 tokenization。chunking ≥ 25 时优势显著。
□ 4. 评估必须三轴 OOD 拆分。视觉 / 物体 / 本体一起报,否则数字没参考价值。
□ 5. 留一条 World Model 通道。哪怕 v0 只是 action-conditioned video。
□ 6. RL 微调先在 WM / sim 里跑。直接真机 RL 是 2026 反模式。
□ 7. sim2real 必须有量化 correlation。否则刷的 sim 分数对真机毫无意义。
□ 8. 数据来源至少覆盖三种(真机 + sim + 人类视频)。单一源 VLA 已被反复证明不够。
□ 9. 推理频率纳入约束。<30Hz 的 SOTA 在真机等于不可用。
□ 10. action head 蒸馏到 Consistency Policy。量产场景必备。
□ 11. residual policy 别省。最后一公里靠它。
□ 12. 失败案例进 eval set。每次真机翻车都该转化成回归 task。
VLA 不会消失。它太好用、太简洁、太适合做 BC 预热。所有 Route B / C 方法都需要一个"VLA 风格"的初始策略——这是已被验证的事实。
但 2026 之后,仅靠 VLA scaling 就期待通用具身智能,已经没有人会下这个赌注了。世界模型给了一条新的"复利曲线":互联网视频 → latent action → 想象 RL → 真机微调。它把数据问题、泛化问题、物理问题,第一次同时撬开一道缝。
从产业格局看,海外是「Figure 押 A、1X 押 B、Tesla 押垂直整合、PI/Skild 卖大脑」四线分立;国内则是「智元数据飞轮、银河通用通用大模型、宇树硬件现金流、星动技术全栈、智平方产业落地」多点开花。资本两个月 200 亿砸下来,路线分歧反而更尖锐而非收敛——这意味着 2027-2028 年必有一次大洗牌。
所以下次再有人问你"用 VLA 还是世界模型",正确答案是——都用,且让它们互相喂饭。这才是 2026 具身智能真正的样子。
KEY TAKEAWAY
VLA 教会了机器人怎么做, 世界模型才能让它想清楚要做什么。
具身智能的下半场,从这里开始。
延伸阅读 / 推荐论文
▸ RT-2 / RT-X — Google DeepMind, 2023
▸ OpenVLA · OpenVLA-OFT — Stanford et al., 2024-2025
▸ π0 / π0.5 / FAST — Physical Intelligence, 2024-2025
▸ Diffusion Policy / Consistency Policy — Chi et al., 2023 / Prasad et al., 2024
▸ DreamerV3 / TD-MPC2 — Hafner et al., 2024 / Hansen et al., 2024
▸ Genie / Genie-2 — DeepMind, 2024-2025
▸ V-JEPA-2 — Meta FAIR, 2025
▸ WMPO: World-Model Policy Optimization — ICLR 2026
▸ Latent Action Pretraining (LAPA) — 2024-2025
▸ AgiBot World — 智元机器人, 2025-2026
#具身智能 #VLA #World Model #Diffusion Policy #Robot Learning #市场分析
— END —
如果你正在做具身智能,欢迎在评论区告诉我们你赌的是哪条路