S

Spatialvla 4b 224 Sft Fractal

IPEC-COMMUNITYによって開発
SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。
ダウンロード数 375
リリース時間 : 3/16/2025

モデル概要

このモデルは視覚と言語入力を組み合わせ、ロボット動作指令を出力し、汎用ロボット戦略開発に適しています。

モデル特徴

マルチモーダル理解
視覚と言語入力を同時に処理し、複雑なシーンを理解可能
ロボット動作生成
視覚と言語入力に基づき正確なロボット動作指令を生成
大規模事前学習
110万件の実ロボット実演データで事前学習され、幅広いタスク適応能力を有する

モデル能力

視覚シーン理解
自然言語指令解析
ロボット動作計画
マルチモーダル特徴融合

使用事例

ロボット制御
物体把持
視覚入力と言語指令に基づき把持動作を計画
SimplerEnvベンチマークで優れた性能
空間ナビゲーション
空間関係を理解しナビゲーションパスを生成
空間理解評価で高得点
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase