OpenVLA 7Bオープンソース視覚言語動作モデル - 指示と画像に基づいてロボットの動作を生成する

ホーム

Openvla 7b

openvlaによって開発

OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #ロボット制御 #マルチモーダル命令 #ゼロショット汎化

ダウンロード数 1.7M

リリース時間 : 6/10/2024

モデル概要

OpenVLA 7Bはマルチモーダルモデルで、言語命令とロボット作業空間のカメラ画像を入力として受け取り、7自由度エンドエフェクタの変位量を予測します。さまざまなロボット制御をサポートし、微調整によって新しいロボット領域に迅速に適応できます。

モデル特徴

マルチロボットサポート

プリトレーニングされた混合データに含まれる複数のロボットをそのまま制御可能

パラメータ効率的な微調整

少数のデモデータで効率的に微調整し、新しいタスクやロボット設定に適応可能

オープンソーストレーニングコード

完全なトレーニングコードライブラリがMITライセンスで公開され、カスタムトレーニングをサポート

マルチモーダル入力

言語命令と視覚入力を同時に処理し、正確なロボット動作を生成

モデル能力

ロボット動作予測

視覚言語理解

マルチモーダルタスク処理

ロボット制御

使用事例

ロボット制御

Widow-Xロボット制御

BridgeV2環境でWidow-Xロボットを制御し命令を実行

ゼロショットでプリトレーニング混合データに含まれるタスクを実行

新規ロボット適応

少数のデモデータで微調整し新しいロボット設定に適応

新しいタスクやロボット環境に迅速に適応

🚀 OpenVLA 7B

OpenVLA 7B (openvla-7b) は、Open X-Embodiment データセットの970Kのロボット操作エピソードで学習されたオープンなビジョン・言語・行動モデルです。このモデルは、言語指示とカメラ画像を入力として受け取り、ロボットの行動を生成します。複数のロボットをそのまま制御することができ、（パラメータ効率的な）微調整によって新しいロボットドメインに迅速に適応させることが可能です。

すべてのOpenVLAチェックポイントと学習コードベースは、MITライセンスの下で公開されています。

詳細については、論文を読み、プロジェクトページを参照してください。

📚 ドキュメント

モデルの概要

属性	详情
開発者	スタンフォード大学、UCバークレー、Google Deepmind、トヨタ研究所の研究者から構成されるOpenVLAチーム
モデルタイプ	ビジョン・言語・行動（言語、画像 => ロボットの行動）
言語 (NLP)	en
ライセンス	MIT
微調整元のモデル	`prism-dinosiglip-224px`（以下の要素で学習されたVLM）： - ビジョンバックボーン：DINOv2 ViT-L/14 と SigLIP ViT-So400M/14 - 言語モデル：Llama-2
事前学習データセット	Open X-Embodiment （特定のコンポーネントデータセットはこちら）
リポジトリ	https://github.com/openvla/openvla
論文	OpenVLA: An Open-Source Vision-Language-Action Model
プロジェクトページとビデオ	https://openvla.github.io/

用途

OpenVLAモデルは、言語指示とロボット作業空間のカメラ画像を入力として受け取り、(x, y, z, roll, pitch, yaw, gripper) の形式の7自由度のエンドエフェクターの変位からなる（正規化された）ロボットの行動を予測します。実際のロボットプラットフォームで実行するには、行動を各ロボット、各データセットごとに計算された統計に基づいて逆正規化する必要があります。詳細はリポジトリを参照してください。

OpenVLAモデルは、Open-X事前学習ミックスで見られる特定のエンボディメントとドメインの組み合わせに対してゼロショットでロボットを制御することができます（例えば、Widow-Xロボットを使用したBridgeV2環境）。また、最小限のデモンストレーションデータを用いて新しいタスクやロボット設定に対して効率的に微調整することもできます（こちらを参照）。

適用範囲外: OpenVLAモデルは、新しい（未見の）ロボットエンボディメントや事前学習ミックスに含まれていない設定に対してはゼロショットで一般化できません。このような場合、目的の設定でデモンストレーションデータセットを収集し、OpenVLAモデルを微調整することをおすすめします。

🚀 クイックスタート

OpenVLA 7Bは、事前学習ミックスに含まれるドメインに対して複数のロボットをそのまま制御することができます。例えば、[BridgeV2環境]でWidow-Xロボットを使用してゼロショットで命令に従うために openvla-7b をロードする例を以下に示します。

基本的な使用法

# Install minimal dependencies (`torch`, `transformers`, `timm`, `tokenizers`, ...)
# > pip install -r https://raw.githubusercontent.com/openvla/openvla/main/requirements-min.txt
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image

import torch

# Load Processor & VLA
processor = AutoProcessor.from_pretrained("openvla/openvla-7b", trust_remote_code=True)
vla = AutoModelForVision2Seq.from_pretrained(
    "openvla/openvla-7b",
    attn_implementation="flash_attention_2",  # [Optional] Requires `flash_attn`
    torch_dtype=torch.bfloat16, 
    low_cpu_mem_usage=True, 
    trust_remote_code=True
).to("cuda:0")

# Grab image input & format prompt
image: Image.Image = get_from_camera(...)
prompt = "In: What action should the robot take to {<INSTRUCTION>}?\nOut:"

# Predict Action (7-DoF; un-normalize for BridgeV2)
inputs = processor(prompt, image).to("cuda:0", dtype=torch.bfloat16)
action = vla.predict_action(**inputs, unnorm_key="bridge_orig", do_sample=False)

# Execute...
robot.act(action, ...)

より多くの例や、独自のロボットデモンストレーションデータセットでOpenVLAモデルを微調整するスクリプトについては、学習リポジトリを参照してください。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

引用

BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}