L

Llava V1.5 7b Gguf

granddadによって開発
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを微調整し、GPTが生成したマルチモーダル命令追従データに基づいてトレーニングされています。
ダウンロード数 13
リリース時間 : 2/15/2024

モデル概要

LLaVAはTransformerアーキテクチャに基づく自己回帰型言語モデルで、主に大規模マルチモーダルモデルとチャットボットの研究に使用されます。

モデル特徴

マルチモーダル能力
画像とテキスト入力を同時に処理し、クロスモーダルインタラクションを実現
命令追従
複雑なマルチモーダル命令を理解し実行するために特別にトレーニング
オープンソースモデル
オープンソースのベースモデルLLaMA/Vicunaに基づいて構築

モデル能力

画像キャプション生成
視覚的質問応答
マルチモーダル対話
命令追従

使用事例

学術研究
マルチモーダルモデル研究
視覚言語モデルの性能と能力を研究するために使用
人間とコンピュータのインタラクション研究
マルチモーダルベースのチャットボットインタラクション方法を探求
教育
視覚補助学習
画像とテキストを組み合わせた方法で概念を理解するのを学生に支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase