L

Liuhaotian Llava V1.5 13b GGUF

PsiPiによって開発
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaアーキテクチャをベースに、マルチモーダル命令追従データで微調整されています。
ダウンロード数 1,225
リリース時間 : 12/1/2023

モデル概要

LLaVAは研究用の大規模マルチモーダルモデルで、主にコンピュータビジョン、自然言語処理、人工知能分野の研究に使用されます。

モデル特徴

マルチモーダル能力
画像とテキスト入力を同時に処理し、クロスモーダル理解を実現
命令追従
マルチモーダル命令に従うよう特別に訓練
オープンソースモデル
オープンソースライセンスで提供され、研究開発に利用可能
エンドツーエンド推論
llama.cppを使用した追加依存なしの推論をサポート

モデル能力

画像-テキスト対話
視覚的質問応答
画像説明生成
マルチモーダル命令追従
クロスモーダル理解

使用事例

学術研究
マルチモーダルモデル研究
大規模マルチモーダルモデルの性能と能力限界の研究に使用
人間-コンピュータ相互作用研究
視覚と言語に基づくマルチモーダルな人間-コンピュータ相互作用方法の探求
教育応用
視覚的学習支援
複雑な視覚的コンテンツの理解を学生に支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase