VLA 技术站 — 具身智能视觉-语言-动作模型

什么是 VLA？

VLA（Vision-Language-Action）是具身智能领域的一种端到端模型范式：输入视觉图像和自然语言指令，直接输出机器人控制动作。无需手工设计感知-规划-控制管线，模型从数据中端到端学习「看 → 理解 → 执行」。

这一范式由 Google RT-1 / RT-2 系列开创，但闭源模型难以复现和二次开发。2024 年起，三批开源团队分别从不同技术路线给出了完整解决方案：

路线	项目	核心思想
离散化 Token	OpenVLA (7B)	动作离散化为 LLM token，复用 next-token prediction
流匹配生成	π0 (3.3B)	Flow Matching 在连续空间生成动作块，精度高速度快
扩散策略	Octo (27~93M)	轻量 Transformer + diffusion head，单卡可跑

路线

项目

核心思想

离散化 Token

OpenVLA (7B)

动作离散化为 LLM token，复用 next-token prediction

流匹配生成

π0 (3.3B)

Flow Matching 在连续空间生成动作块，精度高速度快

扩散策略

Octo (27~93M)

轻量 Transformer + diffusion head，单卡可跑

三大开源项目

OpenVLA

7B · 大模型路线

斯坦福 + 伯克利出品。基于 Llama-2-7B + DINOv2/SigLIP 双视觉编码器，将连续动作离散化为 256 个 token，用标准 LLM next-token prediction 范式输出动作。970K 真机数据训练，比 RT-2-X (55B) 成功率高 16.5%。

Llama-2-7B DINOv2 + SigLIP LoRA 微调 Open X-Embodiment

π0 (Pi-Zero)

3.3B · 流匹配路线

Physical Intelligence 出品。PaliGemma 3B VLM + 300M action expert 双专家架构，用 Flow Matching 在连续空间生成 50 步动作块。10,000+ 小时训练数据覆盖 7 种机器人构型，擅长折衣、收拾桌子等长程灵巧任务。

PaliGemma + Gemma Flow Matching Action Chunking KV-cache 推理

Octo

27~93M · 轻量路线

伯克利出品。纯 Transformer 架构 + diffusion action head，仅 27M/93M 参数。在 Open X-Embodiment 800K 轨迹上训练，覆盖 9+ 种机器人平台。单张 4090 推理 13-17 it/s，微调仅需数小时——把通用策略拉到「单卡可玩」级别。

纯 Transformer Diffusion Head JAX/Flax 单卡微调

📊 三项目横向对比 →

如何选择？

你的场景	推荐项目	理由
消费级 GPU (24GB)，想快速跑起来	Octo	27M 参数，4090 即可推理 + 微调
追求最强泛化 + 生态完善	OpenVLA	HuggingFace 原生支持，LoRA 微调文档齐全
长程灵巧操作（双臂、折衣等）	π0	Flow Matching 精度高，50 步 action chunking
从零研究 VLA 架构	Octo	最小化代码量，架构清晰易懂

你的场景

推荐项目

理由

消费级 GPU (24GB)，想快速跑起来

Octo

27M 参数，4090 即可推理 + 微调

追求最强泛化 + 生态完善

OpenVLA

HuggingFace 原生支持，LoRA 微调文档齐全

长程灵巧操作（双臂、折衣等）

π0

Flow Matching 精度高，50 步 action chunking

从零研究 VLA 架构

Octo

最小化代码量，架构清晰易懂