Spatialvla 4b 224 Pt
模型概述
一個基於PaLiGemma2架構的視覺-語言-動作模型,能夠根據視覺輸入和語言指令生成機器人控制動作
模型特點
空間增強表徵
專門優化了空間理解能力,能更好地處理機器人操作任務中的空間關係
大規模真實數據訓練
基於110萬真實機器人操作片段訓練,具有強大的實際操作能力
簡潔高效實現
完全基於HuggingFace Transformers實現,部署簡便
模型能力
視覺指令理解
機器人動作生成
空間關係推理
多模態任務處理
使用案例
機器人控制
物體抓取
根據視覺輸入和語言指令生成抓取物體的動作序列
在WidowX機器人上實現零樣本控制
新構型適應
通過少量微調適應新的機器人構型
成功應用於Franka機器人
空間理解
空間關係推理
理解物體之間的空間關係並生成相應動作
在LIBERO基準測試中表現優異
🚀 SpatialVLA
SpatialVLA是一個經過空間增強的視覺-語言-動作模型,在110萬個真實機器人實驗片段上進行了訓練。該代碼完全基於HuggingFace,簡潔且性能高效。
所有SpatialVLA的檢查點以及我們的訓練代碼庫均在MIT許可證下發布。
🚀 快速開始
SpatialVLA僅依賴於HuggingFace Transformers 🤗,這使得模型的部署變得極為輕鬆。如果你的環境支持 transformers >= 4.47.0
,你可以直接使用以下代碼加載模型並進行推理(需要8.5GB的GPU內存)。
import torch
from PIL import Image
from transformers import AutoModel, AutoProcessor
model_name_or_path="IPEC-COMMUNITY/spatialvla-4b-224-pt"
processor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16).eval().cuda()
image = Image.open("example.png").convert("RGB")
prompt = "What action should the robot take to pick the cup?"
inputs = processor(images=[image], text=prompt, return_tensors="pt")
generation_outputs = model.predict_action(inputs)
actions = processor.decode_actions(generation_outputs, unnorm_key="bridge_orig/1.0.0")
print(actions)
✨ 主要特性
- 基於空間增強技術,在視覺-語言-動作任務上表現出色。
- 代碼基於HuggingFace,簡潔高效,易於部署。
- 在多個機器人任務評估中展現出優秀性能。
📦 安裝指南
如果你想使用該模型進行微調或預訓練,你需要先克隆官方倉庫:
git clone https://github.com/SpatialVLA/SpatialVLA.git
然後安裝所需的包,並從Hugging Face模型中心下載模型。SpatialVLA的VLM骨幹網絡是PaLiGemma2,這需要 transformers >= 4.47.0
。因此,請創建一個Python版本 >= 3.10的Python環境:
conda create -n spatialvla python=3.10
conda activate spatialvla
從 requirements.txt
文件中安裝包。請注意,我們使用了一個定製的 dlimp
來支持種子設置以確保結果可復現。如果你遇到任何問題,請從dlimp_custom手動安裝 dlimp
。
pip install -r requirements.txt
從頭開始訓練
SpatialVLA在64個A100 GPU集群上,使用來自OXE和RH20T數據集的110萬個真實機器人演示進行了約10天的預訓練,批次大小為2048。你可以使用以下命令從頭開始預訓練模型:
# torchrun
bash scripts/spatialvla_4b_pretrain/torchrun_pretrain.sh
# 或在slurm集群中
bash scripts/spatialvla_4b_pretrain/slurm_pretrain.sh
微調
我們的大多數微調實驗是在4個或8個A100 GPU上使用LoRA進行的。你可以使用以下腳本進行全參數或LoRA微調。對於使用小數據集的真實世界實驗,我們建議使用LoRA進行微調。
# 全參數微調
bash scripts/spatialvla_4b_finetune/finetune_full.sh
# LoRA微調
bash scripts/spatialvla_4b_finetune/finetune_lora.sh
📚 詳細文檔
模型詳情
模型描述
屬性 | 詳情 |
---|---|
開發者 | 由來自上海人工智能實驗室、上海科技大學和TeleAI的研究人員組成的SpatialVLA團隊 |
模型類型 | 視覺-語言-動作(語言、圖像 => 機器人動作) |
語言(NLP) | 英語 |
許可證 | MIT |
微調基礎模型 | paligemma2-3b-pt-224 |
預訓練數據集 | Open X-Embodiment 和 RH20T |
倉庫 | https://github.com/SpatialVLA/SpatialVLA |
論文 | SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model |
項目頁面和視頻 | https://spatialvla.github.io/ |
模型使用範圍
- 直接使用:在支持
transformers >= 4.47.0
的環境中,可直接使用提供的代碼加載模型並進行推理。 - 超出適用範圍:SpatialVLA模型無法在零樣本情況下泛化到新的(未見過的)機器人實體或預訓練混合中未涵蓋的設置。在這些情況下,我們建議在所需設置上收集演示數據集,並對SpatialVLA模型進行微調。
評估
- Google機器人任務的SimplerEnv評估
模型 | 視覺匹配 - 拿起可樂罐 | 視覺匹配 - 靠近 | 視覺匹配 - 打開/關閉抽屜 | 視覺匹配 - 平均 | 變體聚合 - 拿起可樂罐 | 變體聚合 - 靠近 | 變體聚合 - 打開/關閉抽屜 | 變體聚合 - 平均 |
---|---|---|---|---|---|---|---|---|
RT-1 (Begin) | 2.7% | 5.0% | 13.9% | 6.8% | 2.2% | 4.0% | 6.9% | 4.2% |
RT-1 (15%) | 71.0% | 35.4% | 56.5% | 60.2% | 81.3% | 44.6% | 26.7% | 56.2% |
RT-1 (Converged) | 85.7% | 44.2% | 73.0% | 74.6% | 89.8% | 50.0% | 32.3% | 63.3% |
HPT | 56.0% | 60.0% | 24.0% | 46.0% | -- | -- | 31.0% | 45.0% |
TraceVLA | 28.0% | 53.7% | 57.0% | 42.0% | 60.0% | 56.4% | 29.4% | 39.6% |
RT-1-X | 56.7% | 31.7% | 59.7% | 53.4% | 49.0% | 32.3% | 35.3% | 64.3% |
RT-2-X | 78.7% | 77.9% | 25.0% | 60.7% | 82.3% | 79.2% | -- | -- |
Octo-Base | 17.0% | 4.2% | 22.7% | 16.8% | 0.6% | 3.1% | 1.1% | 1.1% |
OpenVLA | 16.3% | 46.2% | 35.6% | 27.7% | 54.5% | 47.7% | 17.7% | 39.8% |
RoboVLM (zero-shot) | 72.7% | 66.3% | 26.8% | 56.3% | 68.3% | 56.0% | 8.5% | 46.3% |
RoboVLM (fine-tuning) | 77.3% | 61.7% | 43.5% | 63.4% | 75.6% | 60.0% | 10.6% | 51.3% |
SpatialVLA (zero-shot) | 81.0% | 69.6% | 59.3% | 71.9% | 89.5% | 71.7% | 36.2% | 68.8% |
SpatialVLA (fine-tuning) | 86.0% | 77.9% | 57.4% | 75.1% | 88.0% | 72.7% | 41.8% | 70.7% |
- WidowX機器人任務的SimplerEnv評估
模型 | 把勺子放在毛巾上 - 抓取勺子 | 把勺子放在毛巾上 - 成功 | 把胡蘿蔔放在盤子上 - 抓取胡蘿蔔 | 把胡蘿蔔放在盤子上 - 成功 | 把綠色方塊堆在黃色方塊上 - 抓取綠色方塊 | 把綠色方塊堆在黃色方塊上 - 成功 | 把茄子放在黃色籃子裡 - 抓取茄子 | 把茄子放在黃色籃子裡 - 成功 | 總體平均 |
---|---|---|---|---|---|---|---|---|---|
RT-1-X | 16.7% | 0.0% | 20.8% | 4.2% | 8.3% | 0.0% | 0.0% | 0.0% | 1.1% |
Octo-Base | 34.7% | 12.5% | 52.8% | 8.3% | 31.9% | 0.0% | 66.7% | 43.1% | 16.0% |
Octo-Small | 77.8% | 47.2% | 27.8% | 9.7% | 40.3% | 4.2% | 87.5% | 56.9% | 30.0% |
OpenVLA | 4.1% | 0.0% | 33.3% | 0.0% | 12.5% | 0.0% | 8.3% | 4.1% | 1.0% |
RoboVLM (zero-shot) | 37.5% | 20.8% | 33.3% | 25.0% | 8.3% | 8.3% | 0.0% | 0.0% | 13.5% |
RoboVLM (fine-tuning) | 54.2% | 29.2% | 25.0% | 25.0% | 45.8% | 12.5% | 58.3% | 58.3% | 31.3% |
SpatialVLA (zero-shot) | 25.0% | 20.8% | 41.7% | 20.8% | 58.3% | 25.0% | 79.2% | 70.8% | 34.4% |
SpatialVLA (fine-tuning) | 20.8% | 16.7% | 29.2% | 25.0% | 62.5% | 29.2% | 100.0% | 100.0% | 42.7% |
- LIBERO仿真基準測試結果
模型 | LIBERO-Spatial - SR (↑) | LIBERO-Spatial - Rank (↓) | LIBERO-Object - SR (↑) | LIBERO-Object - Rank (↓) | LIBERO-Goal - SR (↑) | LIBERO-Goal - Rank (↓) | LIBERO-Long - SR (↑) | LIBERO-Long - Rank (↓) | 平均 - SR (↑) | 平均 - Rank (↓) |
---|---|---|---|---|---|---|---|---|---|---|
Diffusion Policy from scratch | 78.3 ± 1.1% | 5 | 92.5 ± 0.7% | 1 | 68.3 ± 1.2% | 5 | 50.5 ± 1.3% | 5 | 72.4 ± 0.7% | 5 |
Octo fine-tuned | 78.9 ± 1.0% | 4 | 85.7 ± 0.9% | 4 | 84.6 ± 0.9% | 1 | 51.1 ± 1.3% | 4 | 75.1 ± 0.6% | 3 |
OpenVLA fine-tuned | 84.7 ± 0.9% | 2 | 88.4 ± 0.8% | 3 | 79.2 ± 1.0% | 2 | 53.7 ± 1.3% | 3 | 76.5 ± 0.6% | 2 |
TraceVLA fine-tuned | 84.6 ± 0.2% | 3 | 85.2 ± 0.4% | 5 | 75.1 ± 0.3% | 4 | 54.1 ± 1.0% | 2 | 74.8 ± 0.5% | 4 |
SpatialVLA fine-tuned | 88.2 ± 0.5% | 1 | 89.9 ± 0.7% | 2 | 78.6 ± 0.6% | 3 | 55.5 ± 1.0% | 1 | 78.1 ± 0.7% | 1 |
- WidowX機器人的零樣本機器人控制評估
- 空間理解能力評估
- Franka機器人適應新機器人設置
📄 許可證
本項目採用MIT許可證。
📚 引用
如果你在研究中使用了SpatialVLA,請使用以下BibTeX引用:
@misc{qu2025spatialvlaexploringspatialrepresentations,
title={SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model},
author={Delin Qu and Haoming Song and Qizhi Chen and Yuanqi Yao and Xinyi Ye and Yan Ding and Zhigang Wang and JiaYuan Gu and Bin Zhao and Dong Wang and Xuelong Li},
year={2025},
eprint={2501.15830},
archivePrefix={arXiv},
primaryClass={cs.RO},
url={https://arxiv.org/abs/2501.15830},
}
Codebert Base
CodeBERT是一個面向編程語言與自然語言的預訓練模型,基於RoBERTa架構,支持代碼搜索和代碼生成文檔等功能。
多模態融合
C
microsoft
1.6M
248
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta開發的多模態AI模型,採用混合專家架構,支持12種語言的文本和圖像交互,具有17B激活參數和109B總參數。
多模態融合
Transformers 支持多種語言

L
meta-llama
817.62k
844
Unixcoder Base
Apache-2.0
UniXcoder是一個統一的多模態預訓練模型,利用代碼註釋和抽象語法樹等多模態數據預訓練代碼表示。
多模態融合
Transformers 英語

U
microsoft
347.45k
51
TITAN
TITAN是一個多模態全切片基礎模型,通過視覺自監督學習和視覺-語言對齊進行預訓練,用於病理學圖像分析。
多模態融合
Safetensors 英語
T
MahmoodLab
213.39k
37
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態,並以流式方式生成文本和自然語音響應。
多模態融合
Transformers 英語

Q
Qwen
206.20k
1,522
Minicpm O 2 6
MiniCPM-o 2.6是一款手機端運行的GPT-4o級多模態大模型,支持視覺、語音與直播流處理
多模態融合
Transformers 其他

M
openbmb
178.38k
1,117
Llama 4 Scout 17B 16E Instruct
其他
Llama 4 Scout是Meta推出的17B參數/16專家混合的多模態AI模型,支持12種語言和圖像理解,具有行業領先性能。
多模態融合
Transformers 支持多種語言

L
chutesai
173.52k
2
Qwen2.5 Omni 3B
其他
Qwen2.5-Omni是一款端到端多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,並以流式方式同步生成文本和自然語音響應。
多模態融合
Transformers 英語

Q
Qwen
48.07k
219
One Align
MIT
Q-Align是一個多任務視覺評估模型,專注於圖像質量評估(IQA)、美學評估(IAA)和視頻質量評估(VQA),在ICML2024上發表。
多模態融合
Transformers

O
q-future
39.48k
25
Biomedvlp BioViL T
MIT
BioViL-T是一個專注於分析胸部X光片和放射學報告的視覺語言模型,通過時序多模態預訓練提升性能。
多模態融合
Transformers 英語

B
microsoft
26.39k
35
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98