S

Spatialvla 4b 224 Sft Bridge

由IPEC-COMMUNITY開發
該模型是基於SpatialVLA模型在bridge數據集上微調得到的視覺-語言-動作模型,專為Simpler-env基準測試打造。
下載量 1,066
發布時間 : 3/16/2025

模型概述

SpatialVLA是一個視覺-語言-動作模型,能夠根據圖像和文本輸入生成機器人動作指令。

模型特點

視覺-語言-動作集成
能夠同時處理視覺和語言輸入,輸出機器人動作指令
基於大規模機器人數據訓練
使用Open X-Embodiment和RH20T數據集進行預訓練
空間理解能力
專門優化了對空間關係的理解和表達
易於部署
完全基於HuggingFace Transformers,部署簡便

模型能力

視覺-語言理解
機器人動作生成
空間關係推理
多模態任務處理

使用案例

機器人控制
物體抓取
根據視覺輸入和文本指令生成抓取物體的動作序列
在Google Robot任務中取得良好表現
物體擺放
將指定物體擺放到目標位置
在WidowX Robot任務中展示高成功率
空間理解
空間關係推理
理解物體間的相對位置關係
在空間理解評估中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase