オープンソースのマルチモーダルチャットボットLLaVA - 無料でデプロイ可能、画像とテキストのマルチモーダルインタラクションに対応

ホーム

Llava Llama 2 7b Chat Lightning Lora Preview

liuhaotianによって開発

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。

テキスト生成画像

Transformers

#マルチモーダル指示追従 #視覚的推論QA #GPT-4協調評価

ダウンロード数 251

リリース時間 : 7/19/2023

モデル概要

LLaVAは視覚と言語理解を組み合わせたマルチモーダルモデルで、主に大規模マルチモーダルモデルとチャットボット開発の研究に使用されます。

モデル特徴

マルチモーダル能力

画像とテキスト入力を同時に処理し、クロスモーダル理解を実現

指示追従

複雑なマルチモーダル指示を理解し実行可能

オープンソースモデル

完全なオープンソースで、研究および商業利用が可能

モデル能力

画像説明生成

視覚的質問応答

マルチモーダル対話

複雑な推論

詳細な記述

使用事例

研究

マルチモーダルモデル研究

視覚言語モデルの性能と能力限界を研究するために使用

ScienceQAデータセットで最新の最高性能を達成

アプリケーション開発

インテリジェントチャットボット

画像内容を理解する対話システムの開発

🚀 LLaVAモデルカード

LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。このモデルは、大規模なマルチモーダルモデルやチャットボットに関する研究に役立ちます。

🚀 クイックスタート

このセクションでは、LLaVAモデルの基本的な情報をご紹介します。

✨ 主な機能

マルチモーダルデータを利用した命令追従能力
画像とテキストの関連付けによる高度な理解

📚 ドキュメント

🔍 モデル詳細

プロパティ	詳細
モデルタイプ	LLaVAは、トランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されました。
モデル日付	LLaVA-LLaMA-2-7B-Chat-LoRA-Previewは2023年7月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/

📄 ライセンス

❓ モデルに関する質問やコメントの送信先

https://github.com/haotian-liu/LLaVA/issues

🎯 意図された用途

主な意図された用途

LLaVAの主な用途は、大規模なマルチモーダルモデルやチャットボットに関する研究です。

主な意図されたユーザー

このモデルの主な意図されたユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者や愛好家です。

📊 学習データセット

LAION/CC/SBUから抽出され、BLIPでキャプション付けされた558Kの画像-テキストペア
80KのGPT生成マルチモーダル命令追従データ

🧪 評価データセット

モデル品質の予備評価は、COCO val 2014からランダムにサンプリングされた30枚の一意の画像から90の視覚的推論質問のセットを作成することで行われます。各画像には、会話型、詳細な説明、複雑な推論の3種類の質問が関連付けられています。GPT-4を利用してモデル出力を判断します。また、ScienceQAデータセットでもモデルを評価しています。GPT-4との相乗効果により、このデータセットで新たな最先端技術を達成しています。詳細はhttps://llava-vl.github.io/を参照してください。