openvla-7b-finetuned-libero-10オープンソースモデル - ロボット分野で視覚言語アクションアプリケーションの実現を支援

ホーム

Openvla 7b Finetuned Libero 10

openvlaによって開発

このモデルは、LIBERO-10データセットでLoRAメソッドを使用してOpenVLA 7Bモデルを微調整して得られた視覚言語動作モデルで、ロボット技術分野に適しています。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #ロボット視覚制御 #マルチモーダル命令理解 #LoRA微調整最適化

ダウンロード数 1,779

リリース時間 : 9/3/2024

モデル概要

ロボット技術向けに最適化されたマルチモーダルモデルで、画像テキストからテキストへのタスクを処理でき、特に視覚言語動作シナリオに適しています。

モデル特徴

LIBERO-10データセット微調整

LIBEROシミュレーションベンチマークのLIBERO-Longバージョンに特化して最適化

LoRA効率的微調整

LoRA（ランク=32）メソッドを使用してパラメータ効率的に微調整し、モデル性能を維持しながら計算リソース要件を削減

マルチモーダル能力

視覚と言語理解能力を組み合わせ、ロボット技術の複雑なタスクに適用可能

大規模事前トレーニング基盤

強力なOpenVLA 7Bモデルに基づいて構築され、その豊富な視覚言語理解能力を継承

モデル能力

画像理解

テキスト生成

ロボット動作計画

マルチモーダルタスク処理

使用事例

ロボット技術

シミュレーション環境でのタスク計画

LIBEROシミュレーション環境で複雑なマルチステップタスクを実行

最適化されたタスク完了率と実行効率

視覚言語ナビゲーション

視覚入力と言語命令に基づいてナビゲーション決定を行う

🚀 OpenVLA 7B LIBERO-10 (LIBERO-Long) でファインチューニングされたモデル

このモデルは、LIBEROシミュレーションベンチマークのLIBERO-10 (LIBERO-Long) データセットを用いて、LoRA (r=32) を通じてOpenVLA 7Bモデルをファインチューニングすることで生成されました。最終的なパフォーマンスを向上させるために、学習データセットにいくつかの修正を加えています（詳細はOpenVLA論文を参照）。

🚀 クイックスタート

このモデルは、OpenVLA 7Bモデルを、LIBEROシミュレーションベンチマークのLIBERO-10 (LIBERO-Long) データセットを使ってLoRA (r = 32) でファインチューニングして生成されました。最終的なパフォーマンスを向上させるために学習データセットにいくつかの修正を加えています（詳細はOpenVLA論文を参照）。

以下は、すべてのLIBERO実験で使用したハイパーパラメータです。

ハードウェア: 80GBメモリのA100 GPUを8台使用
LoRAでファインチューニング: use_lora == True, lora_rank == 32, lora_dropout == 0.0
学習率: 5e-4
バッチサイズ: 128 (8台のGPU x 各16サンプル)
学習勾配ステップ数: 80K
学習時とテスト時に量子化なし
勾配累積なし (すなわち grad_accumulation_steps == 1)
shuffle_buffer_size == 100_000
画像拡張: ランダムクロップ、カラージッター（詳細は学習コードを参照）

📚 ドキュメント

LIBEROシミュレータでこのモデルを実行および評価する方法については、OpenVLA GitHub READMEを参照してください。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

🔖 引用

BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}