LLaVA-Lightning-7B-delta-v1-1オープンソースチャットボット - 無料で使用可能なマルチモーダル対話交流に対応

Home

Llava Lightning 7B Delta V1 1

Developed by liuhaotian

LLaVAはLLaMA/VicunaをベースにGPTで生成したマルチモーダル指示追従データでファインチューニングされたオープンソースチャットボットです

テキスト生成画像

Transformers

Open Source License:Apache-2.0 #マルチモーダル指示追従 #視覚言語融合 #学術研究専用

Downloads 699

Release Time : 5/3/2023

Model Overview

視覚と言語理解を統合したマルチモーダル大規模モデルで、主に学術研究分野のマルチモーダルインタラクションと指示追従タスクに使用されます

Model Features

マルチモーダル融合

視覚と言語理解能力を統合し、画像とテキストの共同入力を処理可能

指示追従

GPT生成の指示データでファインチューニングされ、複雑なマルチモーダル指示に従える

軽量トレーニング

Lightning版は最適化されたトレーニングを経ており、オリジナル版より効率的

Model Capabilities

画像理解

視覚的質問応答

マルチモーダル対話

画像キャプション生成

複雑な視覚的推論

Use Cases

学術研究

マルチモーダルインタラクション研究

視覚と言語モデル統合のインタラクション方法を探求するために使用

視覚的推論ベンチマークテスト

ScienceQAなどのデータセットでマルチモーダル理解能力を評価

GPT-4と協調して現在の最高性能を達成

🚀 LLaVAモデルカード

LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaを微調整することで学習されたオープンソースのチャットボットです。主に大規模マルチモーダルモデルとチャットボットの研究に使用されます。

🚀 クイックスタート

⚠️ 重要提示

この「デルタモデル」は直接使用することはできません。ユーザーは、実際のLLaVAの重みを取得するために、元のLLaMAの重みに適用する必要があります。詳細な手順は、https://github.com/haotian-liu/LLaVA#llava-weights を参照してください。

✨ 主な機能

LLaVAは、トランスフォーマーアーキテクチャに基づく自己回帰型言語モデルで、大規模マルチモーダルモデルとチャットボットの研究に役立ちます。

📚 ドキュメント

モデルの詳細

項目	詳細
モデルタイプ	LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaを微調整することで学習されたオープンソースのチャットボットです。トランスフォーマーアーキテクチャに基づく自己回帰型言語モデルです。
モデルの作成日	LLaVA-Lightningは2023年5月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/
ライセンス	Apache License 2.0
モデルに関する質問やコメントの送信先	https://github.com/haotian-liu/LLaVA/issues

想定される使用方法

主な想定用途

LLaVAの主な用途は、大規模マルチモーダルモデルとチャットボットの研究です。

主な想定ユーザー

このモデルの主な想定ユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者と愛好家です。

学習データセット

LAION/CC/SBUから抽出され、BLIPでキャプション付けされた558Kの画像テキストペア。
80KのGPTで生成されたマルチモーダル命令追従データ。

評価データセット

モデル品質の予備評価は、COCO val 2014からランダムにサンプリングされた30枚の一意の画像から90個の視覚推論質問のセットを作成することで行われます。各画像には、会話型、詳細な説明、複雑な推論の3種類の質問が関連付けられています。GPT-4を利用してモデルの出力を判断します。また、ScienceQAデータセットでモデルを評価しています。GPT-4との相乗効果により、このデータセットで新たな最先端技術を達成しています。詳細はhttps://llava-vl.github.io/ を参照してください。