🚀 Octo Base
Octo Baseは、ロボット工学の分野で使用されるモデルです。このモデルは、拡散ポリシーを用いて未来の行動を予測し、Transformerアーキテクチャを採用しています。
🚀 クイックスタート
このモデルの使用方法については、https://github.com/octo-models/octo を参照してください。
✨ 主な機能
- Octo Baseはウィンドウサイズ2で学習され、拡散ポリシーを用いて未来4ステップの7次元行動を予測します。
- モデルは93Mのパラメータを持つTransformer(ViT - Bと同等)です。
- 画像は軽量な畳み込みエンコーダで前処理され、16x16のパッチにグループ化されます。
- 言語はT5トークナイザを適用し、T5 - Base言語エンコーダを使用してトークン化されます。
📚 ドキュメント
観測とタスクの仕様
観測
{
image_primary: ('batch', 'history_window', 256, 256, 3),
image_wrist: ('batch', 'history_window', 128, 128, 3),
}
タスク
{
image_primary: ('batch', 256, 256, 3),
image_wrist: ('batch', 128, 128, 3),
language_instruction: {
attention_mask: ('batch', 16),
input_ids: ('batch', 16),
},
}
推論時には、これらの観測とタスクのキーの任意のサブセットを、最大2タイムステップの履歴ウィンドウで渡すことができます。
学習データセット
このモデルは、Open X - Embodimentデータセットの混合データで学習されています。
データセット |
バッチの割合 |
Fractal (Brohan et al, 2022) |
17.0% |
Kuka (Kalashnikov et al, 2018) |
17.0% |
Bridge (Walke et al, 2023) |
17.0% |
BC - Z (Jang et al, 2022) |
9.1% |
Stanford Hydra Dataset (Belkhale et al, 2023) |
6.0% |
Language Table~ (Lynch et al, 2023) |
5.9% |
Taco Play (Rosete - Beas et al, 2022, Mees et al., 2023) |
3.6% |
Furniture Bench Dataset (Heo et al, 2023) |
3.3% |
UTAustin Mutex (Shah et al, 2023) |
3.0% |
Austin Sailor Dataset (Nasiriany et al, 2022) |
2.9% |
Roboturk (Mandlekar et al, 2018) |
2.8% |
Toto (Zhou et al, 2023) |
2.4% |
Austin Sirius Dataset (Liu et al, 2023) |
2.3% |
Berkeley Autolab UR5 (Chen et al) |
1.5% |
IAMLab CMU Pickup Insert (Saxena et al, 2023) |
1.2% |
Viola (Zhu et al, 2023) |
1.2% |
Berkeley Fanuc Manipulation (Zhu et al, 2023) |
1.0% |
NYU Franka Play Dataset (Cui et al, 2022) |
0.9% |
UCSD Kitchen Dataset (Ge Yan and Wang, 2023) |
<0.1% |
Jaco Play (Dass et al, 2023) |
0.6% |
Berkeley Cable Routing (Luo et al, 2023) |
0.3% |
Austin Buds Dataset (Zhu et al, 2022) |
0.3% |
CMU Stretch (Mendonca et al, 2023) |
0.2% |
NYU Door Opening (Pari et al, 2021) |
0.1% |
DLR EDAN Shared Control (Quere et al, 2020) |
0.1% |
バージョン1.5の更新内容
- 言語タスクトークンがコンテキストウィンドウの各タイムステップで繰り返されるようになりました。
- データ内の言語指示をGPT - 3.5の言い換えで拡張しました。
- バグ修正:
- 拡散ヘッドのドロップアウトをレイヤーノルムとの互換性の問題でオフにしました。
- アテンションマスクのオフバイワンエラーを修正しました。
- 異なる画像拡張が新しいランダムシードを取得しない問題を修正しました。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。