S

Spatialvla 4b 224 Pt

Developed by IPEC-COMMUNITY
SpatialVLAは110万の実ロボット操作シーンで訓練された空間拡張視覚言語動作モデルで、ロボット制御タスクに特化しています
Downloads 13.06k
Release Time : 1/26/2025

Model Overview

PaLiGemma2アーキテクチャに基づく視覚-言語-動作モデルで、視覚入力と言語指示からロボット制御動作を生成可能

Model Features

空間拡張表現
空間理解能力を特別に最適化し、ロボット操作タスクにおける空間関係の処理能力を向上
大規模実データ訓練
110万の実ロボット操作シーンで訓練され、強力な実操作能力を有する
簡潔効率的実装
完全にHuggingFace Transformersベースで実装され、展開が容易

Model Capabilities

視覚指示理解
ロボット動作生成
空間関係推論
マルチモーダルタスク処理

Use Cases

ロボット制御
物体把持
視覚入力と言語指示に基づき物体把持動作シーケンスを生成
WidowXロボットでゼロショット制御を実現
新構成適応
少量の微調整で新しいロボット構成に適応
Frankaロボットへの適用に成功
空間理解
空間関係推論
物体間の空間関係を理解し対応する動作を生成
LIBEROベンチマークで優れた性能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase