← 返回 VLA 技术站

三项目横向对比

OpenVLA · π0 · Octo — 架构 / 数据 / 硬件 / 场景全面对比

基本信息

OpenVLAπ0Octo
出品方斯坦福 + 伯克利Physical IntelligenceUC Berkeley / Stanford
参数量7.5B3.3B27M / 93M
开源协议MIT (模型 Llama License)Apache 2.0MIT
GitHub Stars~3.5k~12.6k~2k
深度学习框架PyTorchJAX + PyTorchJAX / Flax

模型架构

架构设计
基座模型Llama-2-7B (LLM)PaliGemma 3B (VLM) + Gemma-300M (Action Expert)纯 Transformer (ViT-S/B)
视觉编码器DINOv2 ViT-L + SigLIP-SO400M(融合)SigLIP-So400m/14SmallStem16 轻量卷积 stem
语言编码器Llama-2 tokenizerPaliGemma tokenizer (vocab 257K)T5-Base(冻结)
图像 token 数512(双编码器各 256)~256 per image256 per image (16×16 patch)
架构特点VLM → next-token prediction双专家单 Transformer + 块状因果注意力模块化 readout token + 分块因果注意力

动作生成方式(核心差异)

动作表达
技术路线离散化 TokenFlow Matching(流匹配)Diffusion(扩散)
具体机制每维度分 256 bin → 映射到 LLM 词表末尾 token → generate(max_new_tokens=7)连续空间回归速度场,10 步欧拉积分,KV-cache 前缀只算 1 次MLP 扩散网络,20 步 DDPM 采样,cosine schedule
动作维度7-DoF(末端执行器增量)可配置(8/14/32)默认 7,可替换 head 支持 14 维双臂
Action Chunking❌ 无(逐帧推理)✅ 一次预测 50 步✅ 一次预测 4 步
精度特点量化损失(256 bin 离散化)连续空间,精度高多峰分布建模,适合多解任务

训练数据

数据规模
训练数据量970K 条轨迹10,000+ 小时800K 条轨迹
数据来源Open X-Embodiment(~26 个子集)OXE + 私有灵巧操作数据Open X-Embodiment(20 个子集)
数据格式RLDSLeRobot / RLDSRLDS
私有数据❌ 纯公开数据✅ 7 种构型 68 任务❌ 纯公开数据
机器人覆盖多平台(评测 29 个任务)单臂/双臂/移动操作9+ 种平台(实验验证)

硬件需求

GPU 门槛对比
推理最低显存~15GB (bf16)
~8GB (4-bit 量化)
>8GB极低(4090 跑 13-17 it/s)
LoRA 微调≥27GB(48GB 可 batch=12)>22.5GB单消费级 GPU,数小时
全量微调8×A100 (80GB) FSDP>70GB (A100/H100)同 LoRA(本身就是轻量)
从头预训练64×A100 (80GB)大规模集群TPUv4-128(8-14 小时)
推荐 GPUA100 40/80GBA100 80GB / H100RTX 4090(消费级)

微调与部署

工程能力
微调方式LoRA (PEFT) / 全量 (FSDP)LoRA / 全量 (FSDP)full / head_only / head_mlp_only
自定义数据接入改 configs.py + transforms.py,转 RLDS转 LeRobot 格式,加 TrainConfig改 config + merge_params,RLDS
远程推理REST API (Flask)WebSocket server + 轻量客户端进程内 JAX 推理
典型微调数据量~100 条演示数千步训练小数据集即可
模块化换头❌ 固定离散化输出❌ 固定 flow matching可换 diffusion/regression/discrete head

选型建议

🟢 消费级 GPU,快速跑起来

Octo:27M 参数,单张 4090 推理 + 微调,几小时完成适配。如果你是学生或个人研究者,这是最低门槛的起点。

🔵 追求最强泛化 + 完善生态

OpenVLA:HuggingFace 原生支持,LoRA 微调文档齐全,7B 参数带来强语义理解。有 A100 资源的研究团队首选。

🔴 长程灵巧操作(双臂、折衣等)

π0:Flow Matching 连续空间精度高,50 步 action chunking 降低控制频率压力。Physical Intelligence 的私有数据覆盖了最复杂的灵巧任务。

🟡 从零研究 VLA 架构

Octo:最小化代码量,纯 Transformer 架构清晰易懂。模块化设计方便你替换组件做 ablation。

🟣 生产环境部署到真机

π0:WebSocket 远程推理方案成熟,机器人端零 GPU 依赖,带宽优化好。或 OpenVLA 的 REST API 方案也可靠。