OpenVLA 7Bオープンソースビジュアル言語アクションモデル - 無料でデプロイ可能、75億パラメータの完全ファインチューニングをサポート！

ホーム

Openvla 7b Prismatic

openvlaによって開発

OpenVLA 7Bはオープンソースの視覚言語動作モデルで、Prismatic VLMsトレーニングスクリプト形式と互換性があり、75億パラメータの完全な微調整をサポートします。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #視覚言語動作制御 #マルチモーダル事前学習 #ロボット指令生成

ダウンロード数 156

リリース時間 : 7/8/2024

モデル概要

OpenVLA 7Bはマルチモーダル事前学習モデルで、視覚言語動作タスクに特化しており、画像テキストからテキストへの変換を処理できます。

モデル特徴

Prismaticトレーニングスクリプト互換

Prismatic VLMsトレーニングスクリプトを使用した完全な微調整をサポートし、全パラメータトレーニングが必要なシナリオに適しています。

マルチモーダル能力

視覚と言語処理能力を組み合わせ、画像に関連するテキスト内容を理解し生成できます。

大規模事前学習

75億パラメータの事前学習モデルに基づき、強力な特徴抽出と生成能力を備えています。

モデル能力

画像理解

テキスト生成

マルチモーダル推論

視覚言語動作タスク処理

使用事例

ロボット技術

ロボット視覚指令理解

画像とテキスト入力を通じてロボットにタスクを実行させる

マルチモーダルインタラクション

画像説明生成

入力画像に基づいて詳細なテキスト説明を生成する

🚀 OpenVLA 7B (Prismatic互換バージョン)

このモデルは、OpenVLA 7Bモデルと同じものですが、このチェックポイントは元のPrismatic VLMsプロジェクトのコードベースのトレーニングスクリプトと互換性のある形式になっています。OpenVLAチームはこのコードベースを基にOpenVLAモデルを開発しました。OpenVLA 7Bモデルの詳細はこちらを参照してください: https://huggingface.co/openvla/openvla-7b

このPrismatic互換チェックポイントは、Prismatic VLMsのトレーニングスクリプトを使用して、ネイティブのPyTorch Fully Sharded Data Parallel (FSDP) を介してOpenVLA（全75億のパラメータ）を完全にファインチューニングしたい場合に便利です。代わりにLoRAを介して効率的なパラメータファインチューニングを行いたい場合は、上記のリンク先のOpenVLAチェックポイントを使用できます。これはHugging Faceのtransformersライブラリと互換性があります。70億パラメータのモデルを完全にファインチューニングするのに十分なコンピューティングリソース（例えば、複数のA100/H100 GPU）がない場合は、LoRAを介したファインチューニングをおすすめします。

🚀 クイックスタート

このチェックポイントを完全にファインチューニングする方法については、OpenVLAのGitHub READMEを参照してください。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

📚 ドキュメント

引用

BibTeX:

@article{kim24openvla,
    title={OpenVLA: An Open-Source Vision-Language-Action Model},
    author={{Moo Jin} Kim and Karl Pertsch and Siddharth Karamcheti and Ted Xiao and Ashwin Balakrishna and Suraj Nair and Rafael Rafailov and Ethan Foster and Grace Lam and Pannag Sanketi and Quan Vuong and Thomas Kollar and Benjamin Burchfiel and Russ Tedrake and Dorsa Sadigh and Sergey Levine and Percy Liang and Chelsea Finn},
    journal = {arXiv preprint arXiv:2406.09246},
    year={2024}
}

情報テーブル

属性	详情
ライブラリ名	transformers
タグ	robotics、vla、image-text-to-text、multimodal、pretraining
ライセンス	MIT
言語	en
パイプラインタグ	image-text-to-text