O

Octo Base 1.5

由rail-berkeley開發
Octo 是一個用於機器人技術的多模態基礎模型,能夠通過視覺和語言輸入預測機器人動作。
下載量 87
發布時間 : 5/21/2024

模型概述

Octo 基礎模型是一個結合視覺和語言輸入的Transformer架構,專為機器人控制任務設計。它能夠處理來自主攝像頭和腕部攝像頭的圖像輸入,並結合語言指令預測未來動作。

模型特點

多模態輸入處理
能夠同時處理視覺(雙攝像頭)和語言輸入
擴散策略預測
採用擴散策略預測未來4步的7維動作
靈活輸入支持
推理時可傳入任意子集的觀測和任務鍵
大規模訓練數據
基於Open X-Embodiment數據集的25個不同機器人數據集訓練

模型能力

視覺信息處理
語言指令理解
機器人動作預測
多模態數據融合

使用案例

機器人控制
基於視覺的物體操作
根據攝像頭輸入和語言指令執行抓取、放置等操作
任務導向型動作序列生成
根據語言描述生成完成特定任務所需的動作序列
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase