S

Spatialvla 4b Mix 224 Pt

由IPEC-COMMUNITY開發
SpatialVLA是一個視覺-語言-動作模型,通過微調基礎模型在分形與橋數據集上獲得,專為機器人控制任務設計。
下載量 72
發布時間 : 1/26/2025

模型概述

該模型主要用於將語言指令和視覺輸入轉換為機器人動作,適用於通用機器人策略開發。

模型特點

視覺-語言-動作集成
能夠同時處理視覺輸入和語言指令,輸出機器人動作序列
大規模預訓練
在Open X-Embodiment和RH20T的110萬條真實機器人演示數據上預訓練
領域適應微調
針對特定任務在分形與橋數據集上進行優化微調
空間理解能力
特別強調對空間關係的理解和表達

模型能力

視覺-語言理解
機器人動作生成
空間關係推理
多模態任務處理

使用案例

機器人控制
物體抓取
根據視覺輸入和語言指令生成抓取動作序列
在Google Robot任務中表現良好
空間導航
理解空間關係並生成導航路徑
在WidowX Robot任務中取得良好效果
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase