LLaVA - 13b - delta - v0オープンソースチャットボット - マルチモーダルデータに基づく自然な対話体験をサポート

ホーム

Llava 13b Delta V0

liuhaotianによって開発

LLaVAはLLaMA/Vicunaをベースに、GPTで生成されたマルチモーダル命令追従データでファインチューニングされたオープンソースのチャットボットで、Transformerアーキテクチャに基づく自己回帰型言語モデルです。

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル命令追従 #視覚言語連合推論 #学術研究専用

ダウンロード数 352

リリース時間 : 4/17/2023

モデル概要

LLaVAはマルチモーダル大規模モデルで、視覚と言語処理能力を統合し、主にマルチモーダル大規模モデルやチャットボットの学術研究に使用されます。

モデル特徴

マルチモーダル能力

視覚と言語処理能力を統合し、画像に関連するテキスト内容を理解し生成できます。

命令追従

GPTで生成されたマルチモーダル命令追従データでファインチューニングされており、複雑な命令をよりよく理解し実行できます。

オープンソース

Apache 2.0ライセンスでオープンソース化されており、学術研究や二次開発に便利です。

モデル能力

マルチモーダル命令追従

視覚推論

科学質問応答

画像説明生成

複雑推論

使用事例

学術研究

マルチモーダル大規模モデル研究

マルチモーダル大規模モデルの性能と能力を研究するために使用されます。

視覚推論

モデルの視覚推論タスクにおけるパフォーマンスを研究するために使用されます。

ScienceQAデータセットにおいて、本モデルはGPT-4との協調表現でデータセットの最高成績を更新しました。

教育

科学質問応答

教育分野の科学質問応答タスクに使用されます。

🚀 LLaVAモデルカード

LLaVAは、GPTが生成したマルチモーダル命令追従データ上でLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。大規模マルチモーダルモデルやチャットボットの研究に役立ちます。

🚀 クイックスタート

⚠️ 重要な注意

この「デルタモデル」は直接使用することはできません。ユーザーは、実際のLLaVAの重みを取得するために、これを元のLLaMAの重みに適用する必要があります。詳細な手順は、https://github.com/haotian-liu/LLaVA#llava-weights を参照してください。

✨ 主な機能

LLaVAは、トランスフォーマーアーキテクチャに基づく自己回帰型の言語モデルです。大規模マルチモーダルモデルやチャットボットの研究に使用できます。

📚 ドキュメント

モデルの詳細

属性	詳細
モデルタイプ	LLaVAは、GPTが生成したマルチモーダル命令追従データ上でLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。トランスフォーマーアーキテクチャに基づく自己回帰型の言語モデルです。
モデルの日付	LLaVAは2023年4月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/
ライセンス	Apache License 2.0
モデルに関する質問やコメントの送信先	https://github.com/haotian-liu/LLaVA/issues

想定される使用方法

主な想定使用用途

LLaVAの主な使用用途は、大規模マルチモーダルモデルやチャットボットの研究です。

主な想定ユーザー

このモデルの主な想定ユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者や愛好家です。

学習データセット

CC3Mからフィルタリングされた595Kの画像テキストペア。
150KのGPT生成マルチモーダル命令追従データ。

評価データセット

モデル品質の予備評価は、COCO val 2014からランダムにサンプリングされた30枚の一意の画像から90個の視覚的推論問題のセットを作成することで行われます。各画像には、会話型、詳細な説明、複雑な推論の3種類の質問が関連付けられています。GPT - 4を利用してモデルの出力を判断します。また、ScienceQAデータセットでもモデルを評価しています。GPT - 4との相乗効果により、このデータセットで新たな最先端技術を達成しています。詳細はhttps://llava-vl.github.io/ を参照してください。