L

Llava Phi 3 Mini Hf

由xtuner開發
基於Phi-3-mini-4k-instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像轉文本任務
下載量 2,322
發布時間 : 4/25/2024

模型概述

LLaVA-Phi-3-mini是一個視覺語言模型,能夠理解圖像內容並生成相關文本描述,適用於多模態交互場景。

模型特點

高效微調
使用XTuner工具進行高效微調,結合Phi-3-mini和CLIP-ViT的優勢
多模態能力
能夠同時處理視覺和語言信息,實現圖像到文本的轉換
高性能
在多個基準測試中表現優異,如MMBench、MMMU等

模型能力

圖像理解
文本生成
多模態交互
視覺問答

使用案例

教育
科學圖解分析
分析科學圖表並解釋內容
如準確識別火山結構圖中的熔岩部分
內容理解
圖像描述生成
為圖像生成詳細的文本描述
如準確描述兩隻貓在沙發上睡覺的場景
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase