MiniVLAオープンソースビジュアル言語モデル - プリズムコードと互換性があり、ロボットとマルチモーダルタスクに適しています

ホーム

Minivla Libero90 Prismatic

Stanford-ILIADによって開発

MiniVLAは10億パラメータ規模の視覚言語モデルで、プリズム視覚言語モデルプロジェクトのコードベースと互換性があり、ロボット技術やマルチモーダルタスクに適しています。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #マルチモーダル視覚言語 #ロボット技術専用 #10億パラメータのファインチューニング

ダウンロード数 127

リリース時間 : 12/11/2024

モデル概要

MiniVLAは効率的な視覚言語モデルで、画像テキストからテキストへの変換をサポートし、マルチモーダルタスクやロボット技術アプリケーションに適しています。このモデルはプリズム視覚言語モデルプロジェクトのコードベースと互換性があり、完全なファインチューニングが容易です。

モデル特徴

プリズム互換

プリズム視覚言語モデルプロジェクトのコードベースと互換性があり、ネイティブPyTorchのフルシャードデータ並列(FSDP)を使用した完全なファインチューニングが容易です。

効率的なマルチモーダル

画像とテキストのマルチモーダル処理をサポートし、複雑な視覚言語タスクに適しています。

パラメータ効率

10億パラメータ規模で、性能を維持しながら計算リソースの需要を削減します。

モデル能力

画像テキスト変換

マルチモーダル処理

ロボット視覚言語タスク

使用事例

ロボット技術

視覚言語ナビゲーション

ロボットが視覚入力を理解し、対応するテキスト指令を生成するのを支援します。

マルチモーダルインタラクション

ロボットと人間が視覚と言語を通じてインタラクションするのをサポートします。

マルチモーダルアプリケーション

画像説明生成

入力画像に基づいて詳細なテキスト説明を生成します。

🚀 MiniVLA 1B (Prismatic互換バージョン)

MiniVLA 1Bは、画像とテキストを入力としてテキストを出力するマルチモーダルな事前学習モデルです。このチェックポイントは、Prismatic VLMsのトレーニングスクリプトと互換性があり、ネイティブのPyTorch Fully Sharded Data Parallel (FSDP) を使用してMiniVLAを完全にファインチューニングするのに役立ちます。

属性	详情
ライブラリ名	transformers
タグ	robotics、vla、image-text-to-text、multimodal、pretraining
ライセンス	MIT
パイプラインタグ	image-text-to-text

🚀 クイックスタート

このチェックポイントは、元の Prismatic VLMsプロジェクトのコードベースのトレーニングスクリプトと互換性のある形式です。OpenVLAチームは、このコードベースを基にOpenVLAモデルを開発しました。

このPrismatic互換のチェックポイントは、Prismatic VLMsのトレーニングスクリプトを使用して、ネイティブのPyTorch Fully Sharded Data Parallel (FSDP) を介してMiniVLA (全10億個のパラメーター) を完全にファインチューニングしたい場合に役立つ可能性があります。代わりにLoRAを介してパラメータ効率的なファインチューニングを行いたい場合は、上記のリンク先のMiniVLAチェックポイントを使用できます。これはHugging Faceの transformers ライブラリと互換性があります。10億個のパラメーターを持つモデルを完全にファインチューニングするのに十分なコンピューティングリソースがない場合 (例えば、複数のA100/H100 GPUがない場合) は、LoRAを介したファインチューニングをお勧めします。

📚 ドキュメント

使用方法

完全なファインチューニングでこのチェックポイントを使用する方法については、MiniVLA GitHub README を参照してください。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

引用

BibTeX:

@article{belkhale24minivla,
    title={MiniVLA: A Better VLA with a Smaller Footprint},
    author={Suneel Belkhale and Dorsa Sadigh},
    url={https://github.com/Stanford-ILIAD/openvla-mini}
    year={2024}
}