L

Llava Phi 3 Mini Hf

xtunerによって開発
Phi-3-mini-4k-instructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像からテキストへの変換タスクをサポート
ダウンロード数 2,322
リリース時間 : 4/25/2024

モデル概要

LLaVA-Phi-3-miniは視覚言語モデルで、画像内容を理解し関連するテキスト記述を生成でき、マルチモーダルインタラクションシナリオに適しています。

モデル特徴

効率的なファインチューニング
XTunerツールを使用した効率的なファインチューニングで、Phi-3-miniとCLIP-ViTの利点を組み合わせる
マルチモーダル能力
視覚と言語情報を同時に処理し、画像からテキストへの変換を実現
高性能
MMBench、MMMUなどの複数のベンチマークテストで優れた性能を発揮

モデル能力

画像理解
テキスト生成
マルチモーダルインタラクション
視覚的質問応答

使用事例

教育
科学図解分析
科学図表を分析し内容を説明
火山構造図の溶岩部分を正確に識別するなど
コンテンツ理解
画像記述生成
画像の詳細なテキスト記述を生成
ソファで眠る2匹の猫の情景を正確に描写するなど
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase