← 返回 VLA 技术站

三项目横向对比

OpenVLA · π0 · Octo — 架构 / 数据 / 硬件 / 场景全面对比

基本信息

	OpenVLA	π0	Octo
出品方	斯坦福 + 伯克利	Physical Intelligence	UC Berkeley / Stanford
参数量	7.5B	3.3B	27M / 93M
开源协议	MIT (模型 Llama License)	Apache 2.0	MIT
GitHub Stars	~3.5k	~12.6k	~2k
深度学习框架	PyTorch	JAX + PyTorch	JAX / Flax

模型架构

架构设计
基座模型	Llama-2-7B (LLM)	PaliGemma 3B (VLM) + Gemma-300M (Action Expert)	纯 Transformer (ViT-S/B)
视觉编码器	DINOv2 ViT-L + SigLIP-SO400M（融合）	SigLIP-So400m/14	SmallStem16 轻量卷积 stem
语言编码器	Llama-2 tokenizer	PaliGemma tokenizer (vocab 257K)	T5-Base（冻结）
图像 token 数	512（双编码器各 256）	~256 per image	256 per image (16×16 patch)
架构特点	VLM → next-token prediction	双专家单 Transformer + 块状因果注意力	模块化 readout token + 分块因果注意力

动作生成方式（核心差异）

动作表达
技术路线	离散化 Token	Flow Matching（流匹配）	Diffusion（扩散）
具体机制	每维度分 256 bin → 映射到 LLM 词表末尾 token → `generate(max_new_tokens=7)`	连续空间回归速度场，10 步欧拉积分，KV-cache 前缀只算 1 次	MLP 扩散网络，20 步 DDPM 采样，cosine schedule
动作维度	7-DoF（末端执行器增量）	可配置（8/14/32）	默认 7，可替换 head 支持 14 维双臂
Action Chunking	❌ 无（逐帧推理）	✅ 一次预测 50 步	✅ 一次预测 4 步
精度特点	量化损失（256 bin 离散化）	连续空间，精度高	多峰分布建模，适合多解任务

训练数据

数据规模
训练数据量	970K 条轨迹	10,000+ 小时	800K 条轨迹
数据来源	Open X-Embodiment（~26 个子集）	OXE + 私有灵巧操作数据	Open X-Embodiment（20 个子集）
数据格式	RLDS	LeRobot / RLDS	RLDS
私有数据	❌ 纯公开数据	✅ 7 种构型 68 任务	❌ 纯公开数据
机器人覆盖	多平台（评测 29 个任务）	单臂/双臂/移动操作	9+ 种平台（实验验证）

硬件需求

GPU 门槛对比
推理最低显存	~15GB (bf16) ~8GB (4-bit 量化)	>8GB	极低（4090 跑 13-17 it/s）
LoRA 微调	≥27GB（48GB 可 batch=12）	>22.5GB	单消费级 GPU，数小时
全量微调	8×A100 (80GB) FSDP	>70GB (A100/H100)	同 LoRA（本身就是轻量）
从头预训练	64×A100 (80GB)	大规模集群	TPUv4-128（8-14 小时）
推荐 GPU	A100 40/80GB	A100 80GB / H100	RTX 4090（消费级）

微调与部署

工程能力
微调方式	LoRA (PEFT) / 全量 (FSDP)	LoRA / 全量 (FSDP)	full / head_only / head_mlp_only
自定义数据接入	改 configs.py + transforms.py，转 RLDS	转 LeRobot 格式，加 TrainConfig	改 config + merge_params，RLDS
远程推理	REST API (Flask)	WebSocket server + 轻量客户端	进程内 JAX 推理
典型微调数据量	~100 条演示	数千步训练	小数据集即可
模块化换头	❌ 固定离散化输出	❌ 固定 flow matching	✅ 可换 diffusion/regression/discrete head

选型建议

🟢 消费级 GPU，快速跑起来

🔵 追求最强泛化 + 完善生态

🔴 长程灵巧操作（双臂、折衣等）

🟡 从零研究 VLA 架构

🟣 生产环境部署到真机