オープンソースのマルチモーダルチャットボットllava-v1.5-7b-gguf - マルチモーダルインタラクションをサポートし、無料でデプロイ可能

Llava V1.5 7b Gguf

granddadによって開発

LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを微調整し、GPTが生成したマルチモーダル命令追従データに基づいてトレーニングされています。

ダウンロード数 13

リリース時間 : 2/15/2024

モデル概要

LLaVAはTransformerアーキテクチャに基づく自己回帰型言語モデルで、主に大規模マルチモーダルモデルとチャットボットの研究に使用されます。

マルチモーダル能力

画像とテキスト入力を同時に処理し、クロスモーダルインタラクションを実現

命令追従

複雑なマルチモーダル命令を理解し実行するために特別にトレーニング

オープンソースモデル

オープンソースのベースモデルLLaMA/Vicunaに基づいて構築

画像キャプション生成

視覚的質問応答

マルチモーダル対話

命令追従

学術研究

マルチモーダルモデル研究

視覚言語モデルの性能と能力を研究するために使用

人間とコンピュータのインタラクション研究

マルチモーダルベースのチャットボットインタラクション方法を探求

教育

視覚補助学習

画像とテキストを組み合わせた方法で概念を理解するのを学生に支援

LLaVAは、GPTが生成したマルチモーダル命令追従データでLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。大規模マルチモーダルモデルやチャットボットに関する研究に役立ちます。

LLaVAは、画像とテキストを入力としてテキストを出力するモデルです。以下に、このモデルに関する詳細な情報を提供します。

LLaVAは、Transformerアーキテクチャに基づく自己回帰型言語モデルです。GPTが生成したマルチモーダル命令追従データを用いてLLaMA/Vicunaをファインチューニングすることで学習されています。

属性	详情
モデルタイプ	LLaVAは、GPTが生成したマルチモーダル命令追従データでLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。Transformerアーキテクチャに基づく自己回帰型言語モデルです。
モデル作成日	LLaVA-v1.5-7Bは2023年9月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/