OpenVLA v0.1 7Bオープンソースモデル - 複数のロボット制御をサポートする視覚言語アクションツール

ホーム

Openvla V01 7b

openvlaによって開発

OpenVLA v0.1 7Bはオープンソースの視覚-言語-動作モデルで、Open X-Embodimentデータセットでトレーニングされ、さまざまなロボット制御をサポートします。

テキスト生成画像

Transformers

英語オープンソースライセンス:MIT #ロボット動作制御 #マルチモーダル視覚言語 #ゼロショット汎化

ダウンロード数 30

リリース時間 : 6/10/2024

モデル概要

OpenVLA v0.1 7Bは視覚-言語-動作モデルで、言語指示とカメラ画像を入力としてロボット動作を生成します。箱から出してすぐに複数のロボットを制御でき、ファインチューニングによって新しいロボット領域に迅速に適応できます。

モデル特徴

マルチロボットサポート

箱から出してすぐにプレトレーニングデータに含まれる複数のロボットを制御可能

効率的なファインチューニング

少数のデモデータで効率的にファインチューニングし、新しいタスクやロボット設定に適応可能

オープンソース

すべてのチェックポイントとトレーニングコードリポジトリがMITライセンスで公開

モデル能力

ロボット動作予測

視覚言語理解

マルチモーダル入力処理

使用事例

ロボット制御

ゼロショットロボット制御

プレトレーニングデータに含まれるロボット設定で指示をゼロショット実行

Widow-Xロボットなどプレトレーニングデータ内のロボットを制御可能

新領域適応

ファインチューニングで新しいロボット領域に迅速に適応

ターゲット設定上のデモデータセットを収集する必要あり

🚀 OpenVLA v0.1 7B

注: OpenVLA v0.1は開発目的で訓練した初期のモデルです。最新のモデルについては、openvla/openvla - 7bを参照してください。

OpenVLA v0.1 7B (openvla - v01 - 7b) は、Open X - Embodiment データセットの80万件のロボット操作エピソード（Octo で使用されているのと同じデータミックス）を使って訓練されたオープンなビジョン・言語・行動モデルです。このモデルは、言語指示とカメラ画像を入力として受け取り、ロボットの行動を生成します。複数のロボットをそのまま制御でき、（パラメータ効率的な）ファインチューニングによって新しいロボットドメインに迅速に適応させることができます。

すべてのOpenVLAチェックポイントと訓練コードベースは、MITライセンスの下で公開されています。

詳細については、論文を読み、プロジェクトページを参照してください。

🚀 クイックスタート

OpenVLA 7Bは、事前学習ミックスに含まれるドメインの複数のロボットをそのまま制御するために使用できます。例えば、以下はWidow - Xロボットを使ったBridgeV2環境でのゼロショット命令追従のために openvla - v01 - 7b をロードする例です。

# Install minimal dependencies (`torch`, `transformers`, `timm`, `tokenizers`, ...)
# > pip install -r https://raw.githubusercontent.com/openvla/openvla/main/requirements-min.txt
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image

import torch

# Load Processor & VLA
processor = AutoProcessor.from_pretrained("openvla/openvla-7b", trust_remote_code=True)
vla = AutoModelForVision2Seq.from_pretrained(
    "openvla/openvla-v01-7b",
    attn_implementation="flash_attention_2",  # [Optional] Requires `flash_attn`
    torch_dtype=torch.bfloat16, 
    low_cpu_mem_usage=True, 
    trust_remote_code=True
).to("cuda:0")

# Grab image input & format prompt (note inclusion of system prompt due to Vicuña base model)
image: Image.Image = get_from_camera(...)
system_prompt = (
    "A chat between a curious user and an artificial intelligence assistant. "
    "The assistant gives helpful, detailed, and polite answers to the user's questions."
)
prompt = f"{system_prompt} USER: What action should the robot take to {<INSTRUCTION>}? ASSISTANT:"

# Predict Action (7-DoF; un-normalize for BridgeV2)
inputs = processor(prompt, image).to("cuda:0", dtype=torch.bfloat16)
action = vla.predict_action(**inputs, unnorm_key="bridge_orig", do_sample=False)

# Execute...
robot.act(action, ...)

その他の例や、独自のロボットデモンストレーションデータセットでOpenVLAモデルをファインチューニングするスクリプトについては、訓練リポジトリを参照してください。

✨ 主な機能

OpenVLAモデルは、言語指示とロボット作業空間のカメラ画像を入力として受け取り、（正規化された）7自由度のエンドエフェクタのデルタ（x, y, z, ロール, ピッチ, ヨー, グリッパ）からなるロボットの行動を予測します。実際のロボットプラットフォームで実行するには、行動を各ロボット、各データセットごとに計算された統計に基づいて非正規化する必要があります。詳細はリポジトリを参照してください。

OpenVLAモデルは、Open - X事前学習ミックスで見られる特定のエンボディメントとドメインの組み合わせに対してゼロショットでロボットを制御するために使用できます（例えば、BridgeV2環境とWidow - Xロボット）。また、最小限のデモンストレーションデータが与えられた場合、新しいタスクやロボット設定に対して効率的にファインチューニングすることができます。詳細はこちらを参照してください。

適用範囲外: OpenVLAモデルは、新しい（未見の）ロボットエンボディメントや事前学習ミックスに含まれていない設定に対してはゼロショットで一般化できません。このような場合、目的の設定でデモンストレーションデータセットを収集し、OpenVLAモデルをファインチューニングすることをお勧めします。

📚 ドキュメント

モデル概要

属性	详情
開発者	スタンフォード大学、UCバークレー、Google Deepmind、トヨタ研究所の研究者からなるOpenVLAチーム
モデルタイプ	ビジョン・言語・行動（言語、画像 => ロボットの行動）
言語 (NLP)	en
ライセンス	MIT
ファインチューニング元	[`siglip - 224px`](https://github.com/TRI - ML/prismatic - vlms)、以下から訓練されたVLM: + ビジョンバックボーン: SigLIP ViT - So400M/14 + 言語モデル: Vicuña v1.5
事前学習データセット	[Open X - Embodiment](https://robotics - transformer - x.github.io/) -- 特定のコンポーネントデータセットはこちらで見つけることができます。
リポジトリ	https://github.com/openvla/openvla
論文	OpenVLA: An Open - Source Vision - Language - Action Model
プロジェクトページとビデオ	https://openvla.github.io/

📄 ライセンス

すべてのOpenVLAチェックポイントと訓練コードベースは、MITライセンスの下で公開されています。

🔖 引用

BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}