llava-llama-3-8b-v1_1-gguf開源多模態模型 - 支持圖像理解與文本生成

首頁

Llava Llama 3 8b V1 1 Gguf

由xtuner開發

基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微調的多模態模型，支持圖像理解和文本生成

圖像生成文本 #多模態對話 #高分辨率圖像理解 #Llama-3微調

下載量 9,484

發布時間 : 4/26/2024

模型概述

這是一個視覺語言模型，能夠理解圖像內容並生成相關文本描述，適用於圖像轉文本任務

模型特點

強大的視覺理解能力

結合CLIP-ViT-Large視覺編碼器，能準確理解圖像內容

Llama-3語言模型

基於Meta最新Llama-3-8B-Instruct模型，提供高質量文本生成

多分辨率支持

支持336像素分辨率的圖像輸入

高效微調

使用XTuner工具包進行高效微調，優化模型性能

模型能力

圖像內容理解

圖像描述生成

多模態問答

視覺推理

使用案例

圖像理解

圖像描述生成

為輸入的圖像生成詳細文字描述

生成自然流暢的圖像描述文本

視覺問答

回答關於圖像內容的各類問題

準確回答圖像相關問題

教育

科學圖解

解釋科學圖表和示意圖

幫助學生理解複雜科學概念

🚀 llava-llama-3-8b-v1_1模型介紹

llava-llama-3-8b-v1_1 是一個圖像到文本的模型，它基於特定的預訓練模型和數據集進行微調，在多個評估基準上展現出了優秀的性能。該模型在圖像描述等任務中具有較高的準確性和實用性。

🚀 快速開始

下載模型

# mmproj
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-int4.gguf

# (可選) ollama fp16 模型文件
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (可選) ollama int4 模型文件
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_INT4

使用 `ollama` 進行對話

# fp16
ollama create llava-llama3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-llama3-f16 "xx.png Describe this image"

# int4
ollama create llava-llama3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-llama3-int4 "xx.png Describe this image"

使用 `llama.cpp` 進行對話

編譯 llama.cpp (文檔)。
編譯 ./llava-cli (文檔)。

注意：llava-llama-3-8b-v1_1 使用 Llama-3-instruct 對話模板。

# fp16
./llava-cli -m ./llava-llama-3-8b-v1_1-f16.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

# int4
./llava-cli -m ./llava-llama-3-8b-v1_1-int4.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

復現實驗

請參考文檔。

✨ 主要特性

多數據集微調：基於 ShareGPT4V-PT 和 InternVL-SFT 數據集進行微調，提升模型性能。
多格式支持：提供 GGUF 格式模型，同時有不同精度（fp16、int4）的模型可供選擇。
多工具適配：支持使用 ollama 和 llama.cpp 進行對話。

📚 詳細文檔

模型信息

llava-llama-3-8b-v1_1 是一個基於 meta-llama/Meta-Llama-3-8B-Instruct 和 CLIP-ViT-Large-patch14-336 進行微調的 LLaVA 模型，由 XTuner 完成微調。

注意：該模型為 GGUF 格式。

資源鏈接

GitHub: xtuner
HuggingFace LLaVA 格式模型: xtuner/llava-llama-3-8b-v1_1-transformers
官方 LLaVA 格式模型: xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA 格式模型: xtuner/llava-llama-3-8b-v1_1

模型細節

模型	視覺編碼器	投影器	分辨率	預訓練策略	微調策略	預訓練數據集	微調數據集
LLaVA-v1.5-7B	CLIP-L	MLP	336	凍結大語言模型，凍結視覺模型	全量訓練大語言模型，凍結視覺模型	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	凍結大語言模型，凍結視覺模型	全量訓練大語言模型，LoRA 微調視覺模型	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	凍結大語言模型，凍結視覺模型	全量訓練大語言模型，LoRA 微調視覺模型	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

實驗結果

模型	MMBench 測試 (英文)	MMBench 測試 (中文)	CCBench 開發集	MMMU 驗證集	SEED-IMG	AI2D 測試	ScienceQA 測試	HallusionBench 準確率	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

📄 許可證

文檔中未提及相關許可證信息。

📖 引用

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}