llava-v1.5-7bオープンソースマルチモーダルチャットボット - 画像とテキストによる対話体験を無料で実現

Llava V1.5 7b

liuhaotianによって開発

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、画像とテキストのインタラクションをサポートします。

ダウンロード数 1.4M

リリース時間 : 10/5/2023

モデル概要

LLaMA/Vicunaをファインチューニングし、GPTが生成したマルチモーダル命令追従データに基づいて訓練されたオープンソースチャットボットで、画像とテキストの理解および生成能力を備えています。

マルチモーダル理解

画像とテキスト入力を同時に処理し、クロスモーダルインタラクションを実現

命令追従

複雑なマルチモーダル命令を理解し実行可能

オープンソースでファインチューニング可能

オープンソースモデルアーキテクチャに基づき、さらなるカスタマイズと最適化をサポート

画像キャプション生成

視覚的質問応答

マルチモーダル対話

命令追従

クロスモーダル推論

学術研究

マルチモーダルモデル研究

視覚-言語連合表現学習の探索に使用

インテリジェントアシスタント

画像テキストインタラクティブアシスタント

画像内容を理解する対話システムの構築

LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。主に大規模マルチモーダルモデルとチャットボットの研究に使用されます。

本READMEでは、LLaVAモデルの詳細、ライセンス、使用目的、学習データセット、評価データセットなどについて説明します。

LLaVAは、画像とテキストを入力として受け取り、テキストを出力するマルチモーダルモデルです。Transformerアーキテクチャに基づいた自己回帰型言語モデルです。

属性	详情
モデルタイプ	LLaVAは、GPTで生成されたマルチモーダル命令追従データを使用してLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。Transformerアーキテクチャに基づいた自己回帰型言語モデルです。
モデル日付	LLaVA-v1.5-7Bは2023年9月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/