CogACT - Baseオープンソースビジョン・言語・アクションモデル

ホーム

Cogact Base

CogACTによって開発

CogACTは、ロボット操作タスクのための視覚言語モデルと専用動作モジュールを組み合わせた新しい視覚言語動作(VLA)アーキテクチャです。

マルチモーダル融合

Transformers

英語オープンソースライセンス:MIT #視覚言語動作モデル #ロボット操作制御 #マルチモーダル事前学習

ダウンロード数 6,589

リリース時間 : 11/29/2024

モデル概要

CogACTは、視覚言語モデル(VLM)に由来する高度な視覚言語動作(VLA)アーキテクチャで、コンポーネント化設計により言語指令と視覚入力をロボット動作へ変換します。

モデル特徴

コンポーネント化アーキテクチャ

単純なVLMの量子化改造ではなく、分離された視覚、言語、動作モジュール設計を採用

マルチモーダル融合

視覚、言語、動作モダリティを統合し、複雑なロボット操作タスクを実現

ゼロショット転移能力

Open-X事前学習混合データセットのロボット構成にゼロショット適用可能

新タスクへの迅速な適応

少数のデモンストレーションサンプルで新タスクやロボット構成に微調整可能

モデル能力

視覚言語理解

ロボット動作予測

マルチモーダル融合

ゼロショット転移学習

使用事例

ロボット操作

物体把持と配置

言語指令と視覚入力に基づき、物体を把持・配置する動作シーケンスを予測

16ステップ7自由度の標準化ロボット動作を生成可能

タスク指向操作

"スポンジをリンゴの近くに移動"などの複雑な指令を実行

条件付き拡散モデルにより正確な動作シーケンスを生成

🚀 CogACT-Base

CogACTは、VLMから派生した新しい高度なVLAアーキテクチャです。以前の研究では、単純なアクション量子化によってVLMをアクション予測にそのまま転用していましたが、我々はVLMの出力に条件付けられた専用のアクションモジュールを持つコンポーネント化されたVLAアーキテクチャを提案しています。CogACT-Baseは、アクションモジュールとしてDiT-Baseモデルを採用しています。

我々のコードと事前学習済みのモデルウェイトはすべて、MITライセンスの下で提供されています。

詳細については、プロジェクトページと論文を参照してください。

🚀 クイックスタート

CogACTは、言語命令と単一視点のRGB画像を入力として受け取り、次の16個の正規化されたロボットアクションを予測します（形式が x, y, z, roll, pitch, yaw, gripper の7自由度のエンドエフェクタの変位から構成されます）。これらのアクションは、我々の Adaptive Action Ensemble（オプション）によって非正規化され、統合される必要があります。非正規化と統合は、データセットの統計情報に依存します。

CogACTモデルは、Open-X事前学習ミックスで見られる設定のロボットをゼロショットで制御するために使用できます。また、非常に少量のデモンストレーションで新しいタスクやロボット設定に対して微調整することもできます。詳細については、我々のリポジトリを参照してください。

✨ 主な機能

CogACTは、VLMから派生した新しい高度なVLAアーキテクチャを持ち、専用のアクションモジュールを備えています。これにより、ロボットのアクション予測をより効果的に行うことができます。また、ゼロショット学習や微調整に対応しており、様々なロボットタスクに適用できます。

📦 インストール

このセクションでは、インストール手順に関する具体的なコマンドが提供されていないため、省略します。

💻 使用例

基本的な使用法

# Please clone and install dependencies in our repo
# Install minimal dependencies (`torch`, `transformers`, `timm`, `tokenizers`, ...)

from PIL import Image
from vla import load_vla
import torch

model = load_vla(
      'CogACT/CogACT-Base',
      load_for_training=False,
      action_model_type='DiT-B',
      future_action_window_size=15,
    )                                 
# about 30G Memory in fp32; 

# (Optional) use "model.vlm = model.vlm.to(torch.bfloat16)" to load vlm in bf16

model.to('cuda:0').eval()

image: Image.Image = <input_your_image>
prompt = "move sponge near apple"           # input your prompt

# Predict Action (7-DoF; un-normalize for RT-1 google robot data, i.e. fractal20220817_data)
actions, _ = model.predict_action(
          image,
          prompt,
          unnorm_key='fractal20220817_data', # input your unnorm_key of dataset
          cfg_scale = 1.5,                   # cfg from 1.5 to 7 also performs well
          use_ddim = True,                   # use DDIM sampling
          num_ddim_steps = 10,               # number of steps for DDIM sampling
        )

# results in 7-DoF actions of 16 steps with shape [16, 7]

📚 ドキュメント

モデル概要

開発者: Microsoft Research Asiaの研究者から構成されるCogACTチーム
モデルタイプ: Vision-Language-Action（言語、画像 => ロボットアクション）
言語 (NLP): 英語
ライセンス: MIT
モデルコンポーネント:
- ビジョンバックボーン: DINOv2 ViT-L/14 と SigLIP ViT-So400M/14
- 言語モデル: Llama-2
- アクションモデル: DiT-Base
事前学習データセット: Open X-Embodimentのサブセット
リポジトリ: https://github.com/microsoft/CogACT
論文: CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
プロジェクトページ: https://cogact.github.io/

🔧 技術詳細

このセクションでは、具体的な技術説明が50字以上提供されていないため、省略します。

📄 ライセンス

我々のコードと事前学習済みのモデルウェイトはすべて、MITライセンスの下で提供されています。

引用

@article{li2024cogact,
  title={CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation},
  author={Li, Qixiu and Liang, Yaobo and Wang, Zeyu and Luo, Lin and Chen, Xi and Liao, Mozheng and Wei, Fangyun and Deng, Yu and Xu, Sicheng and Zhang, Yizhong and others},
  journal={arXiv preprint arXiv:2411.19650},
  year={2024}
}