S

Spatialvla 4b 224 Sft Fractal

由IPEC-COMMUNITY開發
SpatialVLA是一個視覺-語言-動作模型,通過在fractal數據集上微調得到,主要用於機器人控制任務。
下載量 375
發布時間 : 3/16/2025

模型概述

該模型結合視覺和語言輸入,輸出機器人動作指令,適用於通用機器人策略開發。

模型特點

多模態理解
能夠同時處理視覺和語言輸入,理解複雜場景
機器人動作生成
根據視覺和語言輸入生成精確的機器人動作指令
大規模預訓練
在110萬條真實機器人演示數據上預訓練,具備廣泛的任務適應能力

模型能力

視覺場景理解
自然語言指令解析
機器人動作規劃
多模態特徵融合

使用案例

機器人控制
物體抓取
根據視覺輸入和語言指令規劃抓取動作
在SimplerEnv基準測試中表現優異
空間導航
理解空間關係並生成導航路徑
在空間理解評估中取得高分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase