L

Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5

liuhaotianによって開発
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。
ダウンロード数 173
リリース時間 : 10/5/2023

モデル概要

LLaVAはTransformerアーキテクチャに基づく自己回帰型言語モデルで、主に大規模マルチモーダルモデルとチャットボットの研究に使用されます。

モデル特徴

マルチモーダル能力
視覚と言語の理解能力を統合し、画像とテキスト入力を処理できます。
指示追従
複雑なマルチモーダル指示を理解し実行できます。
オープンソース
モデルは完全にオープンソースで、研究開発に利用可能です。

モデル能力

画像理解
視覚質問応答
マルチモーダル対話
指示追従

使用事例

研究
マルチモーダルモデル研究
コンピュータビジョンと自然言語処理のクロスドメイン研究に使用されます。
アプリケーション開発
インテリジェントチャットボット
画像内容を理解できるインテリジェント対話システムの開発。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase