🚀 SpatialVLA在分形與橋樑數據集上的微調模型
本模型是通過在分形和橋樑數據集上對 SpatialVLA模型 進行微調得到的。為了提高最終性能,我們對訓練數據集做了一些修改(詳情請參考 SpatialVLA論文)。該模型僅用於我們論文中表V的領域數據集微調消融實驗。
✨ 主要特性
- 基於SpatialVLA模型在特定數據集上微調,提升了特定任務的性能。
- 依賴HuggingFace Transformers庫,便於部署。
📦 安裝指南
如果你想使用該模型進行微調或預訓練,需要先克隆 官方倉庫:
git clone https://github.com/SpatialVLA/SpatialVLA.git
然後安裝所需的包,並從Hugging Face模型中心下載模型。SpatialVLA的視覺語言模型(VLM)骨幹是PaLiGemma2,需要 transformers >= 4.47.0
。因此,創建一個Python版本大於等於3.10的環境:
conda create -n spatialvla python=3.10
conda activate spatialvla
從 requirements.txt
文件中安裝包。注意,我們使用了一個自定義的 dlimp
來支持種子設置以實現可重複性。如果你遇到任何問題,請從 dlimp_custom 手動安裝 dlimp
。
pip install -r requirements.txt
💻 使用示例
基礎用法
SpatialVLA僅依賴HuggingFace Transformers 🤗,部署極為簡單。如果你的環境支持 transformers >= 4.47.0
,可以直接使用以下代碼加載模型並進行推理(需要8.5GB的GPU內存)。
import torch
from PIL import Image
from transformers import AutoModel, AutoProcessor
model_name_or_path="IPEC-COMMUNITY/spatialvla-4b-224-pt"
processor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16).eval().cuda()
image = Image.open("example.png").convert("RGB")
prompt = "What action should the robot take to pick the cup?"
inputs = processor(images=[image], text=prompt, return_tensors="pt")
generation_outputs = model.predict_action(inputs)
actions = processor.decode_actions(generation_outputs, unnorm_key="bridge_orig/1.0.0")
print(actions)
高級用法
從頭開始訓練
SpatialVLA在64個A100 GPU的集群上,使用來自OXE和RH20T數據集的110萬個真實機器人演示數據進行了約10天的預訓練,批次大小為2048。你可以使用以下命令從頭開始預訓練模型:
bash scripts/spatialvla_4b_pretrain/torchrun_pretrain.sh
bash scripts/spatialvla_4b_pretrain/slurm_pretrain.sh
微調
我們的大多數微調實驗是在4或8個A100 GPU上使用LoRA進行的。你可以使用以下腳本進行全參數或LoRA微調。對於小數據集的真實世界實驗,我們建議使用LoRA進行微調。
bash scripts/spatialvla_4b_finetune/finetune_full.sh
bash scripts/spatialvla_4b_finetune/finetune_lora.sh
📚 詳細文檔
模型詳情
模型使用範圍
SpatialVLA模型不能對新的(未見過的)機器人實體或預訓練混合中未涵蓋的設置進行零樣本泛化;在這些情況下,我們建議在所需設置上收集演示數據集,並對SpatialVLA模型進行微調。
評估
SimplerEnv在Google機器人任務上的評估
模型 |
視覺匹配 - 拿起可樂罐 |
視覺匹配 - 移動靠近 |
視覺匹配 - 打開/關閉抽屜 |
視覺匹配 - 平均 |
變體聚合 - 拿起可樂罐 |
變體聚合 - 移動靠近 |
變體聚合 - 打開/關閉抽屜 |
變體聚合 - 平均 |
RT-1 (Begin) |
2.7% |
5.0% |
13.9% |
6.8% |
2.2% |
4.0% |
6.9% |
4.2% |
RT-1 (15%) |
71.0% |
35.4% |
56.5% |
60.2% |
81.3% |
44.6% |
26.7% |
56.2% |
RT-1 (Converged) |
85.7% |
44.2% |
73.0% |
74.6% |
89.8% |
50.0% |
32.3% |
63.3% |
HPT |
56.0% |
60.0% |
24.0% |
46.0% |
-- |
-- |
31.0% |
45.0% |
TraceVLA |
28.0% |
53.7% |
57.0% |
42.0% |
60.0% |
56.4% |
29.4% |
39.6% |
RT-1-X |
56.7% |
31.7% |
59.7% |
53.4% |
49.0% |
32.3% |
35.3% |
64.3% |
RT-2-X |
78.7% |
77.9% |
25.0% |
60.7% |
82.3% |
79.2% |
-- |
-- |
Octo-Base |
17.0% |
4.2% |
22.7% |
16.8% |
0.6% |
3.1% |
1.1% |
1.1% |
OpenVLA |
16.3% |
46.2% |
35.6% |
27.7% |
54.5% |
47.7% |
17.7% |
39.8% |
RoboVLM (zero-shot) |
72.7% |
66.3% |
26.8% |
56.3% |
68.3% |
56.0% |
8.5% |
46.3% |
RoboVLM (fine-tuning) |
77.3% |
61.7% |
43.5% |
63.4% |
75.6% |
60.0% |
10.6% |
51.3% |
SpatialVLA (zero-shot) |
81.0% |
69.6% |
59.3% |
71.9% |
89.5% |
71.7% |
36.2% |
68.8% |
SpatialVLA (fine-tuning) |
86.0% |
77.9% |
57.4% |
75.1% |
88.0% |
72.7% |
41.8% |
70.7% |
SimplerEnv在WidowX機器人任務上的評估
模型 |
把勺子放在毛巾上 - 抓取勺子 |
把勺子放在毛巾上 - 成功 |
把胡蘿蔔放在盤子上 - 抓取胡蘿蔔 |
把胡蘿蔔放在盤子上 - 成功 |
把綠色方塊疊在黃色方塊上 - 抓取綠色方塊 |
把綠色方塊疊在黃色方塊上 - 成功 |
把茄子放在黃色籃子裡 - 抓取茄子 |
把茄子放在黃色籃子裡 - 成功 |
總體平均 |
RT-1-X |
16.7% |
0.0% |
20.8% |
4.2% |
8.3% |
0.0% |
0.0% |
0.0% |
1.1% |
Octo-Base |
34.7% |
12.5% |
52.8% |
8.3% |
31.9% |
0.0% |
66.7% |
43.1% |
16.0% |
Octo-Small |
77.8% |
47.2% |
27.8% |
9.7% |
40.3% |
4.2% |
87.5% |
56.9% |
30.0% |
OpenVLA |
4.1% |
0.0% |
33.3% |
0.0% |
12.5% |
0.0% |
8.3% |
4.1% |
1.0% |
RoboVLM (zero-shot) |
37.5% |
20.8% |
33.3% |
25.0% |
8.3% |
8.3% |
0.0% |
0.0% |
13.5% |
RoboVLM (fine-tuning) |
54.2% |
29.2% |
25.0% |
25.0% |
45.8% |
12.5% |
58.3% |
58.3% |
31.3% |
SpatialVLA (zero-shot) |
25.0% |
20.8% |
41.7% |
20.8% |
58.3% |
25.0% |
79.2% |
70.8% |
34.4% |
SpatialVLA (fine-tuning) |
20.8% |
16.7% |
29.2% |
25.0% |
62.5% |
29.2% |
100.0% |
100.0% |
42.7% |
WidowX機器人的零樣本機器人控制評估

空間理解能力評估

📄 許可證
本模型使用的許可證為MIT。
📚 引用
如果你在研究中使用了本模型,請使用以下BibTeX引用:
@misc{qu2025spatialvlaexploringspatialrepresentations,
title={SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model},
author={Delin Qu and Haoming Song and Qizhi Chen and Yuanqi Yao and Xinyi Ye and Yan Ding and Zhigang Wang and JiaYuan Gu and Bin Zhao and Dong Wang and Xuelong Li},
year={2025},
eprint={2501.15830},
archivePrefix={arXiv},
primaryClass={cs.RO},
url={https://arxiv.org/abs/2501.15830},
}