S

Spatialvla 4b 224 Sft Fractal

Developed by IPEC-COMMUNITY
SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。
Downloads 375
Release Time : 3/16/2025

Model Overview

このモデルは視覚と言語入力を組み合わせ、ロボット動作指令を出力し、汎用ロボット戦略開発に適しています。

Model Features

マルチモーダル理解
視覚と言語入力を同時に処理し、複雑なシーンを理解可能
ロボット動作生成
視覚と言語入力に基づき正確なロボット動作指令を生成
大規模事前学習
110万件の実ロボット実演データで事前学習され、幅広いタスク適応能力を有する

Model Capabilities

視覚シーン理解
自然言語指令解析
ロボット動作計画
マルチモーダル特徴融合

Use Cases

ロボット制御
物体把持
視覚入力と言語指令に基づき把持動作を計画
SimplerEnvベンチマークで優れた性能
空間ナビゲーション
空間関係を理解しナビゲーションパスを生成
空間理解評価で高得点
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase