llava-llama-2-13b-chat-lightning-previewオープンソースのマルチモーダルチャットボット

ホーム

Llava Llama 2 13b Chat Lightning Preview

liuhaotianによって開発

LLaVAはオープンソースのマルチモーダルチャットボットモデルで、Transformerアーキテクチャに基づき、GPTが生成したマルチモーダル指令追従データでLLaMA/Vicunaを微調整することで得られます。

テキスト生成画像

Transformers

#マルチモーダル対話 #視覚推論 #指令微調整

ダウンロード数 2,122

リリース時間 : 7/19/2023

モデル概要

LLaVAは主にマルチモーダル大規模モデルとチャットボットの研究に使用され、画像とテキストのマルチモーダル処理能力をサポートし、コンピュータビジョンや自然言語処理などの分野の研究を支援します。

モデル特徴

マルチモーダル能力

GPTが生成したマルチモーダル指令追従データを基に微調整され、画像とテキストを処理するマルチモーダル能力を備えています。

Transformerアーキテクチャ

自己回帰型言語モデルを採用し、Transformerアーキテクチャに基づいて構築されています。

オープンソース研究サポート

コンピュータビジョンや自然言語処理などの分野の研究者や愛好者にオープンソースのサポートを提供します。

モデル能力

画像理解

テキスト生成

視覚推論

マルチモーダル対話

使用事例

学術研究

マルチモーダルモデル研究

画像とテキストのマルチモーダル相互作用能力の研究に使用されます。

視覚推論タスク

ScienceQAデータセットで評価され、GPT - 4と協働して新しい最適レベルに達します。

ScienceQAデータセットで最適な性能を達成

アプリケーション開発

スマートチャットボット

画像理解と対話能力を備えたチャットボットを開発します。

🚀 LLaVAモデルカード

LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。大規模マルチモーダルモデルとチャットボットの研究に役立ちます。

🚀 クイックスタート

LLaVAモデルに関する詳細な情報をご紹介します。

✨ 主な機能

LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。トランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。

📚 ドキュメント

モデル詳細

属性	详情
モデルタイプ	LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。トランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。
モデル日付	LLaVA-LLaMA-2-13B-Chat-Previewは2023年7月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/

ライセンス

モデルに関する質問やコメントの送信先: https://github.com/haotian-liu/LLaVA/issues

想定される使用方法

主な想定使用目的: LLaVAの主な使用目的は、大規模マルチモーダルモデルとチャットボットの研究です。

主な想定ユーザー: このモデルの主な想定ユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者と愛好家です。

学習データセット

LAION/CC/SBUから抽出され、BLIPでキャプション付けされた558Kの画像テキストペア。
80KのGPT生成マルチモーダル命令追従データ。

評価データセット

モデル品質の予備評価は、COCO val 2014からランダムにサンプリングされた30枚の一意の画像から90の視覚推論質問のセットを作成することによって行われます。各画像には、会話型、詳細な説明、複雑な推論の3種類の質問が関連付けられています。モデルの出力の判断にはGPT-4を利用しています。また、ScienceQAデータセットでもモデルを評価しています。GPT-4との相乗効果により、このデータセットで新たな最先端技術を達成しています。詳細はhttps://llava-vl.github.io/を参照してください。