S

Spatialvla 4b 224 Pt

由IPEC-COMMUNITY開發
SpatialVLA是基於110萬真實機器人操作片段訓練的空間增強視覺語言動作模型,專注於機器人控制任務
下載量 13.06k
發布時間 : 1/26/2025

模型概述

一個基於PaLiGemma2架構的視覺-語言-動作模型,能夠根據視覺輸入和語言指令生成機器人控制動作

模型特點

空間增強表徵
專門優化了空間理解能力,能更好地處理機器人操作任務中的空間關係
大規模真實數據訓練
基於110萬真實機器人操作片段訓練,具有強大的實際操作能力
簡潔高效實現
完全基於HuggingFace Transformers實現,部署簡便

模型能力

視覺指令理解
機器人動作生成
空間關係推理
多模態任務處理

使用案例

機器人控制
物體抓取
根據視覺輸入和語言指令生成抓取物體的動作序列
在WidowX機器人上實現零樣本控制
新構型適應
通過少量微調適應新的機器人構型
成功應用於Franka機器人
空間理解
空間關係推理
理解物體之間的空間關係並生成相應動作
在LIBERO基準測試中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase