| OpenVLA | π0 | Octo | |
|---|---|---|---|
| 出品方 | 斯坦福 + 伯克利 | Physical Intelligence | UC Berkeley / Stanford |
| 参数量 | 7.5B | 3.3B | 27M / 93M |
| 开源协议 | MIT (模型 Llama License) | Apache 2.0 | MIT |
| GitHub Stars | ~3.5k | ~12.6k | ~2k |
| 深度学习框架 | PyTorch | JAX + PyTorch | JAX / Flax |
| 架构设计 | |||
|---|---|---|---|
| 基座模型 | Llama-2-7B (LLM) | PaliGemma 3B (VLM) + Gemma-300M (Action Expert) | 纯 Transformer (ViT-S/B) |
| 视觉编码器 | DINOv2 ViT-L + SigLIP-SO400M(融合) | SigLIP-So400m/14 | SmallStem16 轻量卷积 stem |
| 语言编码器 | Llama-2 tokenizer | PaliGemma tokenizer (vocab 257K) | T5-Base(冻结) |
| 图像 token 数 | 512(双编码器各 256) | ~256 per image | 256 per image (16×16 patch) |
| 架构特点 | VLM → next-token prediction | 双专家单 Transformer + 块状因果注意力 | 模块化 readout token + 分块因果注意力 |
| 动作表达 | |||
|---|---|---|---|
| 技术路线 | 离散化 Token | Flow Matching(流匹配) | Diffusion(扩散) |
| 具体机制 | 每维度分 256 bin → 映射到 LLM 词表末尾 token → generate(max_new_tokens=7) | 连续空间回归速度场,10 步欧拉积分,KV-cache 前缀只算 1 次 | MLP 扩散网络,20 步 DDPM 采样,cosine schedule |
| 动作维度 | 7-DoF(末端执行器增量) | 可配置(8/14/32) | 默认 7,可替换 head 支持 14 维双臂 |
| Action Chunking | ❌ 无(逐帧推理) | ✅ 一次预测 50 步 | ✅ 一次预测 4 步 |
| 精度特点 | 量化损失(256 bin 离散化) | 连续空间,精度高 | 多峰分布建模,适合多解任务 |
| 数据规模 | |||
|---|---|---|---|
| 训练数据量 | 970K 条轨迹 | 10,000+ 小时 | 800K 条轨迹 |
| 数据来源 | Open X-Embodiment(~26 个子集) | OXE + 私有灵巧操作数据 | Open X-Embodiment(20 个子集) |
| 数据格式 | RLDS | LeRobot / RLDS | RLDS |
| 私有数据 | ❌ 纯公开数据 | ✅ 7 种构型 68 任务 | ❌ 纯公开数据 |
| 机器人覆盖 | 多平台(评测 29 个任务) | 单臂/双臂/移动操作 | 9+ 种平台(实验验证) |
| GPU 门槛对比 | |||
|---|---|---|---|
| 推理最低显存 | ~15GB (bf16) ~8GB (4-bit 量化) | >8GB | 极低(4090 跑 13-17 it/s) |
| LoRA 微调 | ≥27GB(48GB 可 batch=12) | >22.5GB | 单消费级 GPU,数小时 |
| 全量微调 | 8×A100 (80GB) FSDP | >70GB (A100/H100) | 同 LoRA(本身就是轻量) |
| 从头预训练 | 64×A100 (80GB) | 大规模集群 | TPUv4-128(8-14 小时) |
| 推荐 GPU | A100 40/80GB | A100 80GB / H100 | RTX 4090(消费级) |
| 工程能力 | |||
|---|---|---|---|
| 微调方式 | LoRA (PEFT) / 全量 (FSDP) | LoRA / 全量 (FSDP) | full / head_only / head_mlp_only |
| 自定义数据接入 | 改 configs.py + transforms.py,转 RLDS | 转 LeRobot 格式,加 TrainConfig | 改 config + merge_params,RLDS |
| 远程推理 | REST API (Flask) | WebSocket server + 轻量客户端 | 进程内 JAX 推理 |
| 典型微调数据量 | ~100 条演示 | 数千步训练 | 小数据集即可 |
| 模块化换头 | ❌ 固定离散化输出 | ❌ 固定 flow matching | ✅ 可换 diffusion/regression/discrete head |