llava-v1.6-vicuna-7bオープンソースマルチモーダルチャットボット - 無料で利用し、クロスモーダル交流を実現

Llava V1.6 Vicuna 7b

liuhaotianによって開発

LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データを用いた大規模言語モデルのファインチューニングによって訓練されています。

ダウンロード数 31.65k

リリース時間 : 1/31/2024

モデル概要

LLaVAは主に大規模マルチモーダルモデルとチャットボットの学術研究に使用され、画像とテキストのマルチモーダルインタラクションをサポートします。

マルチモーダル能力

画像とテキストの共同理解と生成をサポートし、複雑なマルチモーダル指示を処理できます。

オープンソースモデル

完全なオープンソースで、研究者による二次開発や学術研究が容易です。

大規模トレーニングデータ

120万以上のマルチモーダルトレーニングデータ（画像-テキストペアと指示追従データを含む）を使用しています。

画像理解

マルチモーダル対話

視覚的質問応答

指示追従

テキスト生成

学術研究

マルチモーダルモデル研究

視覚言語モデルの性能と能力限界を研究するために使用されます。

人間とコンピュータのインタラクション実験

よりインテリジェントなチャットボットを開発するためのベースモデルとして使用されます。

教育

視覚的補助学習

学生が画像とテキストのインタラクティブな方法で複雑な概念を学ぶのを支援します。

LLaVAは、マルチモーダルな命令追従データで大規模言語モデルをファインチューニングすることで学習されたオープンソースのチャットボットです。画像とテキストを入力として、テキストを出力することができます。

このセクションでは、LLaVAモデルの概要と基本的な情報を提供します。

マルチモーダルな命令追従: 画像とテキストを組み合わせた入力に対して、適切な応答を生成します。
大規模言語モデルのファインチューニング: 既存の大規模言語モデルをベースに、マルチモーダルデータでファインチューニングすることで、高性能なチャットボットを実現します。

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

属性	詳情
モデルタイプ	LLaVAは、マルチモーダルな命令追従データで大規模言語モデルをファインチューニングすることで学習されたオートレグレッシブ言語モデルです。Transformerアーキテクチャに基づいています。ベースとなる大規模言語モデルは lmsys/vicuna-7b-v1.5 です。
モデルの日付	LLaVA-v1.6-Vicuna-7Bは、2023年12月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/