L

Llava Phi 3 Mini Gguf

xtunerによって開発
LLaVA-Phi-3-mini は Phi-3-mini-4k-instruct と CLIP-ViT-Large-patch14-336 をファインチューニングした LLaVA モデルで、画像からテキストへの変換タスクに特化しています。
ダウンロード数 1,676
リリース時間 : 4/25/2024

モデル概要

このモデルは Phi-3-mini-4k-instruct の言語能力と CLIP-ViT-Large-patch14-336 の視覚エンコーディング能力を組み合わせ、画像理解とテキスト生成タスクに使用されます。

モデル特徴

効率的なファインチューニング
XTuner ツールキットを使用した効率的なファインチューニングにより、Phi-3-mini と CLIP-ViT の利点を組み合わせています。
マルチモーダル能力
画像とテキスト入力を同時に処理し、関連するテキスト記述を生成できます。
高性能
MMBench、MMMU、SEED-IMG などの複数のベンチマークテストで優れたパフォーマンスを発揮します。

モデル能力

画像理解
テキスト生成
マルチモーダル推論

使用事例

画像記述
自動画像キャプション
画像の詳細なテキスト記述を生成し、コンテンツ管理と検索に適しています。
SEED-IMG テストで 70.0 の精度を達成しました。
視覚的質問応答
画像内容に関する質問応答
画像内容に関する複雑な質問に答えます。
MMBench テストで 69.2 の精度を達成しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase