VLA 技术站

Vision-Language-Action Models · 具身智能开源项目工程指南

什么是 VLA?

VLA(Vision-Language-Action)是具身智能领域的一种端到端模型范式:输入视觉图像自然语言指令,直接输出机器人控制动作。无需手工设计感知-规划-控制管线,模型从数据中端到端学习「看 → 理解 → 执行」。

这一范式由 Google RT-1 / RT-2 系列开创,但闭源模型难以复现和二次开发。2024 年起,三批开源团队分别从不同技术路线给出了完整解决方案:

路线项目核心思想
离散化 TokenOpenVLA (7B)动作离散化为 LLM token,复用 next-token prediction
流匹配生成π0 (3.3B)Flow Matching 在连续空间生成动作块,精度高速度快
扩散策略Octo (27~93M)轻量 Transformer + diffusion head,单卡可跑

三大开源项目

OpenVLA

7B · 大模型路线
斯坦福 + 伯克利出品。基于 Llama-2-7B + DINOv2/SigLIP 双视觉编码器,将连续动作离散化为 256 个 token,用标准 LLM next-token prediction 范式输出动作。970K 真机数据训练,比 RT-2-X (55B) 成功率高 16.5%。
Llama-2-7B DINOv2 + SigLIP LoRA 微调 Open X-Embodiment

π0 (Pi-Zero)

3.3B · 流匹配路线
Physical Intelligence 出品。PaliGemma 3B VLM + 300M action expert 双专家架构,用 Flow Matching 在连续空间生成 50 步动作块。10,000+ 小时训练数据覆盖 7 种机器人构型,擅长折衣、收拾桌子等长程灵巧任务。
PaliGemma + Gemma Flow Matching Action Chunking KV-cache 推理

Octo

27~93M · 轻量路线
伯克利出品。纯 Transformer 架构 + diffusion action head,仅 27M/93M 参数。在 Open X-Embodiment 800K 轨迹上训练,覆盖 9+ 种机器人平台。单张 4090 推理 13-17 it/s,微调仅需数小时——把通用策略拉到「单卡可玩」级别。
纯 Transformer Diffusion Head JAX/Flax 单卡微调
📊 三项目横向对比 →

如何选择?

你的场景推荐项目理由
消费级 GPU (24GB),想快速跑起来Octo27M 参数,4090 即可推理 + 微调
追求最强泛化 + 生态完善OpenVLAHuggingFace 原生支持,LoRA 微调文档齐全
长程灵巧操作(双臂、折衣等)π0Flow Matching 精度高,50 步 action chunking
从零研究 VLA 架构Octo最小化代码量,架构清晰易懂