S

Spatialvla 4b Mix 224 Pt

Developed by IPEC-COMMUNITY
SpatialVLA是一個視覺-語言-動作模型,通過微調基礎模型在分形與橋數據集上獲得,專為機器人控制任務設計。
Downloads 72
Release Time : 1/26/2025

Model Overview

該模型主要用於將語言指令和視覺輸入轉換為機器人動作,適用於通用機器人策略開發。

Model Features

視覺-語言-動作集成
能夠同時處理視覺輸入和語言指令,輸出機器人動作序列
大規模預訓練
在Open X-Embodiment和RH20T的110萬條真實機器人演示數據上預訓練
領域適應微調
針對特定任務在分形與橋數據集上進行優化微調
空間理解能力
特別強調對空間關係的理解和表達

Model Capabilities

視覺-語言理解
機器人動作生成
空間關係推理
多模態任務處理

Use Cases

機器人控制
物體抓取
根據視覺輸入和語言指令生成抓取動作序列
在Google Robot任務中表現良好
空間導航
理解空間關係並生成導航路徑
在WidowX Robot任務中取得良好效果
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase