L

Llava Phi 3 Mini Gguf

由xtuner開發
LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型,專注於圖像轉文本任務。
下載量 1,676
發布時間 : 4/25/2024

模型概述

該模型結合了 Phi-3-mini-4k-instruct 的語言能力和 CLIP-ViT-Large-patch14-336 的視覺編碼能力,用於圖像理解和文本生成任務。

模型特點

高效微調
使用 XTuner 工具包進行高效微調,結合了 Phi-3-mini 和 CLIP-ViT 的優勢。
多模態能力
能夠同時處理圖像和文本輸入,生成相關的文本描述。
高性能
在多個基準測試中表現優異,如 MMBench、MMMU 和 SEED-IMG。

模型能力

圖像理解
文本生成
多模態推理

使用案例

圖像描述
自動圖像標註
為圖像生成詳細的文本描述,適用於內容管理和檢索。
在 SEED-IMG 測試中達到 70.0 的準確率。
視覺問答
圖像內容問答
回答關於圖像內容的複雜問題。
在 MMBench 測試中達到 69.2 的準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase