llava - v1.6 - 34bオープンソース多モーダルチャットボット - 無料で画像とテキストのインタラクティブなチャットを実現

Llava V1.6 34b

liuhaotianによって開発

LLaVAはオープンソースのマルチモーダルチャットボットで、大規模言語モデルのファインチューニングにより訓練され、画像とテキストのインタラクションをサポートします。

ダウンロード数 9,033

リリース時間 : 1/31/2024

モデル概要

LLaVAはTransformerアーキテクチャに基づく自己回帰型言語モデルで、マルチモーダル指示追従データを用いてファインチューニングされており、主に大規模マルチモーダルモデルやチャットボットの学術研究に使用されます。

マルチモーダルサポート

画像とテキストのインタラクションをサポートし、画像内容に基づいたテキスト応答を理解・生成できます。

オープンソース

モデルは完全にオープンソースであり、研究やカスタマイズが容易です。

指示追従

マルチモーダル指示追従データでファインチューニングされており、複雑な指示をより良く理解・実行できます。

画像キャプション生成

マルチモーダル対話

視覚的質問応答

指示追従

学術研究

マルチモーダルモデル研究

マルチモーダルモデルの性能と能力を研究するために使用されます。

チャットボット開発

マルチモーダルチャットボットを開発するためのベースモデルとして使用されます。

教育

視覚的質問応答システム

教育現場での視覚的質問応答システムに使用され、学生が画像内容を理解するのを助けます。

LLaVAは、マルチモーダルな命令追従データで大規模言語モデル（LLM）をファインチューニングすることで学習されたオープンソースのチャットボットです。画像とテキストを入力として受け取り、テキストを出力するモデルで、大規模マルチモーダルモデルやチャットボットの研究に役立ちます。

属性	详情
モデルタイプ	LLaVAは、マルチモーダルな命令追従データでLLMをファインチューニングすることで学習されたオープンソースのチャットボットです。Transformerアーキテクチャに基づく自己回帰型言語モデルです。ベースのLLMは NousResearch/Nous-Hermes-2-Yi-34B です。
モデルの日付	LLaVA-v1.6-34Bは2023年12月に学習されました。
詳細情報の論文またはリソース	https://llava-vl.github.io/