Home

Spatialvla 4b 224 Sft Fractal

Developed by IPEC-COMMUNITY

SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。

テキスト生成画像

Transformers

EnglishOpen Source License:MIT #ロボット動作生成 #視覚言語動作モデル #マルチモーダル制御

Downloads 375

Release Time : 3/16/2025

Model Overview

このモデルは視覚と言語入力を組み合わせ、ロボット動作指令を出力し、汎用ロボット戦略開発に適しています。

Model Features

マルチモーダル理解

視覚と言語入力を同時に処理し、複雑なシーンを理解可能

ロボット動作生成

視覚と言語入力に基づき正確なロボット動作指令を生成

大規模事前学習

110万件の実ロボット実演データで事前学習され、幅広いタスク適応能力を有する

Model Capabilities

視覚シーン理解

自然言語指令解析

ロボット動作計画

マルチモーダル特徴融合

Use Cases

ロボット制御

物体把持

視覚入力と言語指令に基づき把持動作を計画

SimplerEnvベンチマークで優れた性能

空間ナビゲーション

空間関係を理解しナビゲーションパスを生成

空間理解評価で高得点

ライセンス: MIT 言語:

英語ベースモデル:
IPEC-COMMUNITY/spatialvla-4b-224-pt パイプラインタグ: 画像テキストからテキストライブラリ名: transformers タグ:
VLA
基盤視覚言語行動モデル
汎用ロボットポリシー
ロボット工学

SpatialVLAをfractalとbridgeでファインチューニング

このモデルは、SpatialVLAモデルをSimpler-envベンチマーク用のfractalデータセットでファインチューニングして生成されました。

モデルの詳細

モデルの説明

開発者: 上海人工知能実験室、上海科技大学、TeleAIの研究者から構成されるSpatialVLAチーム
モデルタイプ: 視覚言語行動（言語、画像 => ロボットの行動）
言語 (NLP): 英語
ライセンス: MIT
ファインチューニング元のモデル: paligemma2-3b-pt-224
事前学習データセット: Open X-EmbodimentとRH20T
リポジトリ: https://github.com/SpatialVLA/SpatialVLA
論文: SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model
プロジェクトページとビデオ: https://spatialvla.github.io/

使用方法

SpatialVLAはHuggingFace Transformers 🤗のみに依存しているため、展開が非常に簡単です。環境がtransformers >= 4.47.0をサポートしている場合は、以下のコードを直接使用してモデルをロードし、推論を実行できます。（GPUメモリは8.5GB必要）

直接使用

import torch
from PIL import Image
from transformers import AutoModel, AutoProcessor

model_name_or_path="IPEC-COMMUNITY/spatialvla-4b-224-pt"
processor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)

model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16).eval().cuda()

image = Image.open("example.png").convert("RGB")
prompt = "What action should the robot take to pick the cup?"
inputs = processor(images=[image], text=prompt, return_tensors="pt")
generation_outputs = model.predict_action(inputs)

actions = processor.decode_actions(generation_outputs, unnorm_key="fractal20220817_data/0.1.0")
print(actions)

想定外の使用

SpatialVLAモデルは、新しい（未見の）ロボットのエンボディメントや、事前学習のミックスに含まれていないセットアップに対してゼロショットで汎化することはできません。このような場合は、目的のセットアップでデモンストレーションのデータセットを収集し、SpatialVLAモデルをファインチューニングすることをおすすめします。

モデルを使ってみる方法

モデルをファインチューニングまたは事前学習に使用する場合は、まず公式リポジトリをクローンする必要があります。

git clone https://github.com/SpatialVLA/SpatialVLA.git

次に、必要なパッケージをインストールし、Hugging Faceモデルハブからモデルをダウンロードします。SpatialVLAのVLMバックボーンはPaLiGemma2であり、transformers >= 4.47.0が必要です。したがって、Python >= 3.10のPython環境を作成します。

conda create -n spatialvla python=3.10
conda activate spatialvla

requirements.txtファイルからパッケージをインストールします。再現性のためにシード設定をサポートするカスタマイズされたdlimpを使用しています。問題が発生した場合は、dlimp_customからdlimpを手動でインストールしてください。

pip install -r requirements.txt

ゼロからの学習

SpatialVLAは、OXEとRH20Tデータセットの110万件の実ロボットのデモンストレーションを使用して、64台のA100 GPUのクラスターで約10日間、バッチサイズ2048で事前学習されています。以下のコマンドを使用して、モデルをゼロから事前学習できます。

# torchrun
bash scripts/spatialvla_4b_pretrain/torchrun_pretrain.sh

# またはslurmクラスターで
bash scripts/spatialvla_4b_pretrain/slurm_pretrain.sh

ファインチューニング

ほとんどのファインチューニング実験は、4または8台のA100 GPUでLoRAを使用して行われています。以下のスクリプトを使用して、全パラメータまたはLoRAでファインチューニングできます。小さなデータセットを使用する実世界の実験では、LoRAを使用したファインチューニングを推奨します。

# 全パラメータでのファインチューニング
bash scripts/spatialvla_4b_finetune/finetune_full.sh

# LoRAでのファインチューニング
bash scripts/spatialvla_4b_finetune/finetune_lora.sh

評価

GoogleロボットタスクでのSimplerEnv評価

モデル	視覚マッチング				バリアント集約
モデル	コーラ缶を持つ	近くに移動する	引き出しを開閉する	#平均	コーラ缶を持つ	近くに移動する	引き出しを開閉する	#平均
RT-1 (開始時)	2.7%	5.0%	13.9%	6.8%	2.2%	4.0%	6.9%	4.2%
RT-1 (15%)	71.0%	35.4%	56.5%	60.2%	81.3%	44.6%	26.7%	56.2%
RT-1 (収束時)	85.7%	44.2%	73.0%	74.6%	89.8%	50.0%	32.3%	63.3%
HPT	56.0%	60.0%	24.0%	46.0%	--	--	31.0%	45.0%
TraceVLA	28.0%	53.7%	57.0%	42.0%	60.0%	56.4%	29.4%	39.6%
RT-1-X	56.7%	31.7%	59.7%	53.4%	49.0%	32.3%	35.3%	64.3%
RT-2-X	78.7%	77.9%	25.0%	60.7%	82.3%	79.2%	--	--
Octo-Base	17.0%	4.2%	22.7%	16.8%	0.6%	3.1%	1.1%	1.1%
OpenVLA	16.3%	46.2%	35.6%	27.7%	54.5%	47.7%	17.7%	39.8%
RoboVLM (ゼロショット)	72.7%	66.3%	26.8%	56.3%	68.3%	56.0%	8.5%	46.3%
RoboVLM (ファインチューニング)	77.3%	61.7%	43.5%	63.4%	75.6%	60.0%	10.6%	51.3%
SpatialVLA (ゼロショット)	81.0%	69.6%	59.3%	71.9%	89.5%	71.7%	36.2%	68.8%
SpatialVLA (ファインチューニング)	86.0%	77.9%	57.4%	75.1%	88.0%	72.7%	41.8%	70.7%

WidowXロボットタスクでのSimplerEnv評価

モデル	スプーンをタオルの上に置く		ニンジンを皿の上に置く		緑のブロックを黄色のブロックの上に積む		ナスを黄色のバスケットの中に入れる		#全体平均
モデル	スプーンをつかむ	成功	ニンジンをつかむ	成功	緑のブロックをつかむ	成功	ナスをつかむ	成功	#全体平均
RT-1-X	16.7%	0.0%	20.8%	4.2%	8.3%	0.0%	0.0%	0.0%	1.1%
Octo-Base	34.7%	12.5%	52.8%	8.3%	31.9%	0.0%	66.7%	43.1%	16.0%
Octo-Small	77.8%	47.2%	27.8%	9.7%	40.3%	4.2%	87.5%	56.9%	30.0%
OpenVLA	4.1%	0.0%	33.3%	0.0%	12.5%	0.0%	8.3%	4.1%	1.0%
RoboVLM (ゼロショット)	37.5%	20.8%	33.3%	25.0%	8.3%	8.3%	0.0%	0.0%	13.5%
RoboVLM (ファインチューニング)	54.2%	29.2%	25.0%	25.0%	45.8%	12.5%	58.3%	58.3%	31.3%
SpatialVLA (ゼロショット)	25.0%	20.8%	41.7%	20.8%	58.3%	25.0%	79.2%	70.8%	34.4%
SpatialVLA (ファインチューニング)	20.8%	16.7%	29.2%	25.0%	62.5%	29.2%	100.0%	100.0%	42.7%

WidowXロボットでのゼロショットロボット制御評価

空間理解能力評価

引用

BibTeX:

@misc{qu2025spatialvlaexploringspatialrepresentations,
      title={SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model}, 
      author={Delin Qu and Haoming Song and Qizhi Chen and Yuanqi Yao and Xinyi Ye and Yan Ding and Zhigang Wang and JiaYuan Gu and Bin Zhao and Dong Wang and Xuelong Li},
      year={2025},
      eprint={2501.15830},
      archivePrefix={arXiv},
      primaryClass={cs.RO},
      url={https://arxiv.org/abs/2501.15830}, 
}