開源LLaVA-Phi-3-mini-gguf模型 - 免費實現圖像輕鬆轉文本！

首頁

Llava Phi 3 Mini Gguf

由xtuner開發

LLaVA-Phi-3-mini 是基於 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微調的 LLaVA 模型，專注於圖像轉文本任務。

圖像生成文本 #多模態對話 #圖像轉文本 #高效微調

下載量 1,676

發布時間 : 4/25/2024

模型概述

該模型結合了 Phi-3-mini-4k-instruct 的語言能力和 CLIP-ViT-Large-patch14-336 的視覺編碼能力，用於圖像理解和文本生成任務。

模型特點

高效微調

使用 XTuner 工具包進行高效微調，結合了 Phi-3-mini 和 CLIP-ViT 的優勢。

多模態能力

能夠同時處理圖像和文本輸入，生成相關的文本描述。

高性能

在多個基準測試中表現優異，如 MMBench、MMMU 和 SEED-IMG。

模型能力

圖像理解

文本生成

多模態推理

使用案例

圖像描述

自動圖像標註

為圖像生成詳細的文本描述，適用於內容管理和檢索。

在 SEED-IMG 測試中達到 70.0 的準確率。

視覺問答

圖像內容問答

回答關於圖像內容的複雜問題。

在 MMBench 測試中達到 69.2 的準確率。

🚀 llava-phi-3-mini模型

llava-phi-3-mini是一個圖像到文本的模型，它基於特定的數據集進行微調，能夠在圖像理解和文本生成方面發揮作用，為圖像相關的自然語言處理任務提供支持。

🚀 快速開始

下載模型

# mmproj
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/llava-phi-3-mini-int4.gguf

# (可選) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (可選) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-phi-3-mini-gguf/resolve/main/OLLAMA_MODELFILE_INT4

使用`ollama`進行對話

⚠️ 重要提示

llava-phi-3-mini使用Phi-3-instruct對話模板。

# fp16
ollama create llava-phi3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-phi3-f16 "xx.png Describe this image"

# int4
ollama create llava-phi3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-phi3-int4 "xx.png Describe this image"

使用`./llava-cli`進行對話

構建 llama.cpp (文檔)。
構建 ./llava-cli (文檔)。

⚠️ 重要提示

llava-phi-3-mini使用Phi-3-instruct對話模板。

# fp16
./llava-cli -m ./llava-phi-3-mini-f16.gguf --mmproj ./llava-phi-3-mini-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096

# int4
./llava-cli -m ./llava-phi-3-mini-int4.gguf --mmproj ./llava-phi-3-mini-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096

復現實驗

請參考文檔。

✨ 主要特性

基於特定的預訓練模型和視覺編碼器進行微調，能夠處理圖像到文本的轉換任務。
提供不同量化版本（如fp16和int4）的模型，以滿足不同的計算資源需求。
支持使用ollama和./llava-cli進行對話交互。

📦 安裝指南

按照快速開始部分的步驟下載模型，並根據需要進行構建和配置。

📚 詳細文檔

模型信息

llava-phi-3-mini是一個LLaVA模型，由 XTuner 基於 microsoft/Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336，使用 ShareGPT4V-PT 和 InternVL-SFT 進行微調得到。

注意：此模型為GGUF格式。

資源鏈接：

GitHub: xtuner
官方LLaVA格式模型: xtuner/llava-phi-3-mini
HuggingFace LLaVA格式模型: xtuner/llava-phi-3-mini-hf
XTuner LLaVA格式模型: xtuner/llava-phi-3-mini-xtuner

模型詳情

屬性	詳情
模型類型	LLaVA-Phi-3-mini
視覺編碼器	CLIP-L
投影器	MLP
分辨率	336
預訓練策略	Frozen LLM, Frozen ViT
微調策略	Full LLM, Full ViT
預訓練數據集	ShareGPT4V-PT (1246K)
微調數據集	InternVL-SFT (1268K)
預訓練輪數	1
微調輪數	2

實驗結果

模型	MMBench Test (EN)	MMMU Val	SEED-IMG	AI2D Test	ScienceQA Test	HallusionBench aAcc	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	37.1	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1
LLaVA-Phi-3-mini	69.2	41.4	70.0	69.3	73.7	49.8	87.3	61.5	57.8	1477/313	43.7

📄 許可證

本項目引用了以下文獻：

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}