OpenVLA 7B ビジュアル・言語・アクションモデル - LIBERO-Spatial をベースに微調整、オープンソースで実用的！

ホーム

Openvla 7b Finetuned Libero Spatial

openvlaによって開発

LIBERO-SpatialデータセットでLoRAを使用して微調整されたOpenVLA 7B視覚言語動作モデル

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #ロボット視覚言語制御 #マルチモーダル動作生成 #シミュレーション環境事前学習

ダウンロード数 4,009

リリース時間 : 9/3/2024

モデル概要

これはマルチモーダルな視覚言語動作モデルで、ロボット技術向けに設計されており、画像とテキスト入力を処理し、対応する動作指令を生成できます。

モデル特徴

LIBERO-Spatialデータセット微調整

ロボットの空間タスク向けに最適化されたモデル性能

LoRA効率的な微調整

ランク32のLoRAを使用したパラメータ効率的な微調整で、元のモデル能力を維持しながら新タスクに適応

マルチモーダル処理能力

視覚と言語入力を同時に処理し、動作指令を出力可能

モデル能力

視覚言語理解

ロボット動作生成

マルチモーダル推論

空間タスク処理

使用事例

ロボット制御

空間ナビゲーションタスク

視覚入力とテキスト指令に基づいてロボットのナビゲーション動作を生成

LIBERO-Spatialベンチマークで良好な性能

物体操作タスク

視覚と言語入力を組み合わせて物体の把持と配置タスクを完了

🚀 OpenVLA 7B LIBERO-Spatialでファインチューニング済みモデル

このモデルは、LIBEROシミュレーションベンチマークのLIBERO-Spatialデータセットを用いて、LoRA (r=32) を通じてOpenVLA 7Bモデルをファインチューニングすることで生成されました。最終的な性能を向上させるために、学習データセットにいくつかの変更を加えました（詳細はOpenVLA論文を参照）。

🚀 クイックスタート

このモデルは、OpenVLA 7BモデルをLIBEROシミュレーションベンチマークのLIBERO-Spatialデータセットを使って、LoRA (r = 32) でファインチューニングして生成されました。学習データセットには最終性能向上のための修正が加えられています。

🔧 技術詳細

以下は、すべてのLIBERO実験で使用したハイパーパラメータです。

ハードウェア: 80GBメモリのA100 GPU 8台
LoRAでファインチューニング: use_lora == True, lora_rank == 32, lora_dropout == 0.0
学習率: 5e-4
バッチサイズ: 128 (8台のGPU x 各16サンプル)
学習勾配ステップ数: 50K
学習時とテスト時に量子化なし
勾配累積なし (つまり grad_accumulation_steps == 1)
shuffle_buffer_size == 100_000
画像拡張: ランダムクロップ、色の揺らぎ（詳細は学習コードを参照）

📚 ドキュメント

OpenVLA GitHubのREADMEを参照して、このモデルをLIBEROシミュレータで実行し評価する方法を確認してください。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📖 引用

BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}