L

Llava Llama 3 8b V1 1 GGUF

MoMonirによって開発
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート
ダウンロード数 138
リリース時間 : 5/4/2024

モデル概要

これは視覚言語モデルで、画像内容を理解し関連するテキスト記述を生成でき、マルチモーダルインタラクションシーンに適しています。

モデル特徴

マルチモーダル理解
視覚エンコーダーと言語モデルを組み合わせ、画像内容を理解し関連テキストを生成可能
効率的なファインチューニング
LoRA技術を使用して視覚エンコーダーをファインチューニングし、モデル性能を向上
GGUFフォーマットサポート
GGUFフォーマットに変換し、様々な推論ツールやプラットフォームと互換性あり

モデル能力

画像内容理解
画像記述生成
マルチモーダル対話
視覚的質問応答

使用事例

コンテンツ生成
自動画像キャプション
画像に対して記述的なテキストを生成
視覚障害者支援やコンテンツ管理システムに活用可能
教育
視覚的質問応答システム
画像内容に関する質問に回答
MMBenchテストで72.3点(英語)を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase