Octo-base-1.5开源机器人多模态模型 - 凭视觉语言输入预测动作

首页

Octo Base 1.5

由 rail-berkeley 开发

Octo 是一个用于机器人技术的多模态基础模型，能够通过视觉和语言输入预测机器人动作。

多模态融合

Transformers

开源协议:MIT #多摄像头机器人控制 #扩散策略动作预测 #语言指令驱动

下载量 87

发布时间 : 5/21/2024

模型简介

Octo 基础模型是一个结合视觉和语言输入的Transformer架构，专为机器人控制任务设计。它能够处理来自主摄像头和腕部摄像头的图像输入，并结合语言指令预测未来动作。

模型特点

多模态输入处理

能够同时处理视觉(双摄像头)和语言输入

扩散策略预测

采用扩散策略预测未来4步的7维动作

灵活输入支持

推理时可传入任意子集的观测和任务键

大规模训练数据

基于Open X-Embodiment数据集的25个不同机器人数据集训练

模型能力

视觉信息处理

语言指令理解

机器人动作预测

多模态数据融合

使用案例

机器人控制

基于视觉的物体操作

根据摄像头输入和语言指令执行抓取、放置等操作

任务导向型动作序列生成

根据语言描述生成完成特定任务所需的动作序列

🚀 Octo Base

Octo Base是一个用于机器人领域的模型，它能通过扩散策略预测未来4步的7维动作。本模型使用窗口大小为2进行训练，为机器人的动作规划提供了有效的解决方案。

🚀 快速开始

有关如何使用此模型的说明，请参阅：https://github.com/octo-models/octo 。

✨ 主要特性

Octo Base使用窗口大小为2进行训练，可预测未来4步的7维动作。
模型是一个具有9300万个参数的Transformer（相当于ViT - B）。
图像通过轻量级卷积编码器预处理后进行标记化，然后分组为16x16的块。
语言通过应用T5分词器，然后应用T5 - Base语言编码器进行标记化。

🔧 技术细节

观测和任务规范

观测和任务遵循以下规范：

观测

{
    image_primary: ('batch', 'history_window', 256, 256, 3),
    image_wrist: ('batch', 'history_window', 128, 128, 3),
}

任务

{
    image_primary: ('batch', 256, 256, 3),
    image_wrist: ('batch', 128, 128, 3),
    language_instruction: {
        attention_mask: ('batch', 16),
        input_ids: ('batch', 16),
    },
}

在推理时，您可以传入这些观测和任务键的任何子集，历史窗口最多为2个时间步。

训练数据集

该模型在Open X - Embodiment数据集中的多个数据集的混合数据上进行训练。各数据集在批次中的占比如下：

数据集	批次占比
Fractal (Brohan et al, 2022)	17.0%
Kuka (Kalashnikov et al, 2018)	17.0%
Bridge (Walke et al, 2023)	17.0%
BC - Z (Jang et al, 2022)	9.1%
Stanford Hydra Dataset (Belkhale et al, 2023)	6.0%
Language Table~ (Lynch et al, 2023)	5.9%
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023)	3.6%
Furniture Bench Dataset (Heo et al, 2023)	3.3%
UTAustin Mutex (Shah et al, 2023)	3.0%
Austin Sailor Dataset (Nasiriany et al, 2022)	2.9%
Roboturk (Mandlekar et al, 2018)	2.8%
Toto (Zhou et al, 2023)	2.4%
Austin Sirius Dataset (Liu et al, 2023)	2.3%
Berkeley Autolab UR5 (Chen et al)	1.5%
IAMLab CMU Pickup Insert (Saxena et al, 2023)	1.2%
Viola (Zhu et al, 2023)	1.2%
Berkeley Fanuc Manipulation (Zhu et al, 2023)	1.0%
NYU Franka Play Dataset (Cui et al, 2022)	0.9%
UCSD Kitchen Dataset (Ge Yan and Wang, 2023)	<0.1%
Jaco Play (Dass et al, 2023)	0.6%
Berkeley Cable Routing (Luo et al, 2023)	0.3%
Austin Buds Dataset (Zhu et al, 2022)	0.3%
CMU Stretch (Mendonca et al, 2023)	0.2%
NYU Door Opening (Pari et al, 2021)	0.1%
DLR EDAN Shared Control (Quere et al, 2020)	0.1%