L

Llava Llama 3 8b V1 1 Transformers

xtunerによって開発
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート
ダウンロード数 454.61k
リリース時間 : 4/26/2024

モデル概要

これはマルチモーダルモデルで、画像内容を理解し、関連するテキスト記述を生成したり、画像に関する質問に答えたりできます。

モデル特徴

マルチモーダル理解
視覚エンコーダーと言語モデルを組み合わせ、画像内容を理解し関連テキストを生成可能
高性能
複数のベンチマークテストでLLaVA-v1.5-7Bモデルを上回る性能
LoRAファインチューニング
LoRA技術を使用して視覚エンコーダーを微調整し、モデル性能を向上

モデル能力

画像内容理解
画像質問応答
マルチモーダル対話
視覚的推論

使用事例

視覚的質問応答
画像内容記述
画像内容を詳細に記述
画像中の物体、シーン、関係を正確に識別
視覚的推論
画像に関する推論問題に回答
MMBenchなどのベンチマークで優れた性能
教育
科学問題解答
画像に基づいて科学問題を解答
ScienceQAテストで72.9点を獲得
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase