VLA(Vision-Language-Action)是具身智能领域的一种端到端模型范式:输入视觉图像和自然语言指令,直接输出机器人控制动作。无需手工设计感知-规划-控制管线,模型从数据中端到端学习「看 → 理解 → 执行」。
这一范式由 Google RT-1 / RT-2 系列开创,但闭源模型难以复现和二次开发。2024 年起,三批开源团队分别从不同技术路线给出了完整解决方案:
| 路线 | 项目 | 核心思想 |
|---|---|---|
| 离散化 Token | OpenVLA (7B) | 动作离散化为 LLM token,复用 next-token prediction |
| 流匹配生成 | π0 (3.3B) | Flow Matching 在连续空间生成动作块,精度高速度快 |
| 扩散策略 | Octo (27~93M) | 轻量 Transformer + diffusion head,单卡可跑 |
| 你的场景 | 推荐项目 | 理由 |
|---|---|---|
| 消费级 GPU (24GB),想快速跑起来 | Octo | 27M 参数,4090 即可推理 + 微调 |
| 追求最强泛化 + 生态完善 | OpenVLA | HuggingFace 原生支持,LoRA 微调文档齐全 |
| 长程灵巧操作(双臂、折衣等) | π0 | Flow Matching 精度高,50 步 action chunking |
| 从零研究 VLA 架构 | Octo | 最小化代码量,架构清晰易懂 |