S

Spatialvla 4b 224 Pt

IPEC-COMMUNITYによって開発
SpatialVLAは110万の実ロボット操作シーンで訓練された空間拡張視覚言語動作モデルで、ロボット制御タスクに特化しています
ダウンロード数 13.06k
リリース時間 : 1/26/2025

モデル概要

PaLiGemma2アーキテクチャに基づく視覚-言語-動作モデルで、視覚入力と言語指示からロボット制御動作を生成可能

モデル特徴

空間拡張表現
空間理解能力を特別に最適化し、ロボット操作タスクにおける空間関係の処理能力を向上
大規模実データ訓練
110万の実ロボット操作シーンで訓練され、強力な実操作能力を有する
簡潔効率的実装
完全にHuggingFace Transformersベースで実装され、展開が容易

モデル能力

視覚指示理解
ロボット動作生成
空間関係推論
マルチモーダルタスク処理

使用事例

ロボット制御
物体把持
視覚入力と言語指示に基づき物体把持動作シーケンスを生成
WidowXロボットでゼロショット制御を実現
新構成適応
少量の微調整で新しいロボット構成に適応
Frankaロボットへの適用に成功
空間理解
空間関係推論
物体間の空間関係を理解し対応する動作を生成
LIBEROベンチマークで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase