O

Octo Base 1.5

由 rail-berkeley 开发
Octo 是一个用于机器人技术的多模态基础模型,能够通过视觉和语言输入预测机器人动作。
下载量 87
发布时间 : 5/21/2024

模型简介

Octo 基础模型是一个结合视觉和语言输入的Transformer架构,专为机器人控制任务设计。它能够处理来自主摄像头和腕部摄像头的图像输入,并结合语言指令预测未来动作。

模型特点

多模态输入处理
能够同时处理视觉(双摄像头)和语言输入
扩散策略预测
采用扩散策略预测未来4步的7维动作
灵活输入支持
推理时可传入任意子集的观测和任务键
大规模训练数据
基于Open X-Embodiment数据集的25个不同机器人数据集训练

模型能力

视觉信息处理
语言指令理解
机器人动作预测
多模态数据融合

使用案例

机器人控制
基于视觉的物体操作
根据摄像头输入和语言指令执行抓取、放置等操作
任务导向型动作序列生成
根据语言描述生成完成特定任务所需的动作序列
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase