P

Poseless 3B

由Menlo開發
Poseless-3B 是一種基於視覺語言模型(VLM)的機器人手部控制框架,能夠直接將2D圖像映射到關節角度,無需顯式姿態估計。
下載量 65
發布時間 : 3/3/2025

模型概述

該模型利用投影表示和合成訓練數據,實現了對真實場景的零樣本泛化以及從機器人手到人手的跨形態遷移。通過投影視覺輸入並採用基於Transformer的解碼器,PoseLess在解決深度模糊性和數據稀缺等挑戰的同時,實現了魯棒、低延遲的控制。

模型特點

無深度視覺到關節控制
通過投影表示直接將2D圖像映射到關節角度,無需顯式姿態估計。
合成數據生成
利用隨機關節配置生成的合成訓練數據,減少對昂貴標註數據集的依賴。
跨形態泛化
僅通過機器人手數據訓練即可模仿人手運動,展示了跨形態泛化能力。
低延遲控制
採用基於Transformer的解碼器,實現魯棒、低延遲的控制。

模型能力

圖像到關節角度映射
機器人手部控制
跨形態泛化
無深度視覺處理

使用案例

機器人控制
機器人手部姿態控制
通過單目圖像直接控制機器人手部的關節角度。
在不依賴任何人工標註數據集的情況下,模型在關節角度預測精度上具有競爭力。
人機交互
人手姿態模仿
通過機器人手數據訓練,模仿人手的運動。
展示了模型在跨形態泛化方面的潛力。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase