Octo-smallオープンソースロボット制御モデル - 無料で多源ロボットデータセットを活用して未来の動作を予測

ホーム

Octo Small

rail-berkeleyによって開発

Octo小型版は拡散戦略で訓練されたロボット制御モデルで、将来4ステップの7次元動作を予測可能。多様なロボットデータセットに適用可能。

マルチモーダル融合

Transformers

オープンソースライセンス:MIT #マルチモーダルロボット制御 #拡散戦略予測 #軽量Transformer

ダウンロード数 335

リリース時間 : 12/13/2023

モデル概要

このモデルはTransformerアーキテクチャを採用し、軽量な畳み込みエンコーダで画像データを前処理し、T5言語エンコーダと組み合わせてテキスト指令を処理し、ロボット動作予測と制御に使用されます。

モデル特徴

多様データ訓練

25の異なるロボットデータセットからの訓練データを統合し、幅広いロボット操作シナリオをカバー

軽量アーキテクチャ

2700万パラメータのコンパクトなTransformerアーキテクチャを採用し、リアルタイムロボット制御に適している

マルチモーダル入力

メインカメラと手首カメラの画像入力をサポートし、言語指令と組み合わせて動作予測を行う

拡散戦略

拡散戦略を使用して訓練され、将来4ステップの7次元動作を予測可能

モデル能力

ロボット動作予測

マルチモーダルデータ処理

リアルタイム制御

言語指令理解

使用事例

産業用ロボット

組立ライン操作

視覚入力と言語指令に基づき製品組立タスクを完了

サービスロボット

物品把持

ユーザー指令に基づき指定物品を識別・把持

🚀 Octo Small

Octo Smallは、ロボット工学の分野で使用されるモデルです。このモデルは、特定のウィンドウサイズと拡散ポリシーを用いて学習され、将来の行動を予測することができます。

🚀 クイックスタート

このモデルの使用方法については、https://github.com/octo-models/octo を参照してください。

🔧 技術詳細

Octo Smallは、ウィンドウサイズ2で学習され、拡散ポリシーを使用して4ステップ先の7次元の行動を予測します。このモデルは、27Mのパラメータを持つTransformer（ViT - S相当）です。画像は、軽量な畳み込みエンコーダで前処理されてトークン化され、16x16のパッチにグループ化されます。言語は、T5トークナイザを適用し、次にT5 - Base言語エンコーダを適用してトークン化されます。

観測とタスクの仕様

観測

{
    image_primary: ('batch', 'history_window', 256, 256, 3),
    image_wrist: ('batch', 'history_window', 128, 128, 3),
}

タスク

{
    image_primary: ('batch', 256, 256, 3),
    image_wrist: ('batch', 128, 128, 3),
    language_instruction: {
        attention_mask: ('batch', 16),
        input_ids: ('batch', 16),
    },
}

推論時には、これらの観測とタスクのキーの任意のサブセットを、最大2タイムステップの履歴ウィンドウで渡すことができます。

学習データセット

このモデルは、Open X - Embodimentデータセットの混合データセットで学習されました。

データセット	バッチの割合
Fractal (Brohan et al, 2022)	17.0%
Kuka (Kalashnikov et al, 2018)	17.0%
Bridge (Walke et al, 2023)	17.0%
BC - Z (Jang et al, 2022)	9.1%
Stanford Hydra Dataset (Belkhale et al, 2023)	6.0%
Language Table~ (Lynch et al, 2023)	5.9%
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023)	3.6%
Furniture Bench Dataset (Heo et al, 2023)	3.3%
UTAustin Mutex (Shah et al, 2023)	3.0%
Austin Sailor Dataset (Nasiriany et al, 2022)	2.9%
Roboturk (Mandlekar et al, 2018)	2.8%
Toto (Zhou et al, 2023)	2.4%
Austin Sirius Dataset (Liu et al, 2023)	2.3%
Berkeley Autolab UR5 (Chen et al)	1.5%
IAMLab CMU Pickup Insert (Saxena et al, 2023)	1.2%
Viola (Zhu et al, 2023)	1.2%
Berkeley Fanuc Manipulation (Zhu et al, 2023)	1.0%
NYU Franka Play Dataset (Cui et al, 2022)	0.9%
UCSD Kitchen Dataset (Ge Yan and Wang, 2023)	<0.1%
Jaco Play (Dass et al, 2023)	0.6%
Berkeley Cable Routing (Luo et al, 2023)	0.3%
Austin Buds Dataset (Zhu et al, 2022)	0.3%
CMU Stretch (Mendonca et al, 2023)	0.2%
NYU Door Opening (Pari et al, 2021)	0.1%
DLR EDAN Shared Control (Quere et al, 2020)	0.1%