llava-llama-3-8b-v1_1-GGUF開源模型 - 輕鬆實現圖像轉文本任務

首頁

Llava Llama 3 8b V1 1 GGUF

由MoMonir開發

基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型，支持圖像轉文本任務

圖像生成文本 #多模態對話 #圖像理解 #低資源部署

下載量 138

發布時間 : 5/4/2024

模型概述

這是一個視覺語言模型，能夠理解圖像內容並生成相關文本描述，適用於多模態交互場景。

模型特點

多模態理解

結合視覺編碼器和語言模型，能夠理解圖像內容並生成相關文本

高效微調

使用LoRA技術對視覺編碼器進行微調，提高模型性能

GGUF格式支持

轉換為GGUF格式，兼容多種推理工具和平臺

模型能力

圖像內容理解

圖像描述生成

多模態對話

視覺問答

使用案例

內容生成

自動圖像標註

為圖像生成描述性文本

可用於輔助視障人士或內容管理系統

教育

視覺問答系統

回答關於圖像內容的問題

在MMBench測試中獲得72.3分(EN)

🚀 MoMonir/llava-llama-3-8b-v1_1-GGUF

本項目將模型轉換為了GGUF格式，原模型為xtuner/llava-llama-3-8b-v1_1。如需瞭解該模型的更多詳情，請參考原始模型卡片。

數據集

Lin-Chen/ShareGPT4V

任務類型

圖像轉文本

✨ 主要特性

GGUF是llama.cpp團隊於2023年8月21日推出的一種新格式，它取代了不再受llama.cpp支持的GGML格式。以下是已知支持GGUF的客戶端和庫的不完全列表：

llama.cpp：GGUF的源項目，提供命令行界面和服務器選項。
text-generation-webui：最廣泛使用的Web UI，具有許多功能和強大的擴展，支持GPU加速。
KoboldCpp：功能齊全的Web UI，支持所有平臺和GPU架構的GPU加速，尤其適用於故事創作。
GPT4All：一個免費開源的本地運行GUI，支持Windows、Linux和macOS，並提供全GPU加速。
LM Studio：適用於Windows和macOS（Silicon）的易用且強大的本地GUI，支持GPU加速。截至2023年11月27日，Linux版本處於測試階段。
LoLLMS Web UI：一個很棒的Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天GUI，適用於Windows和macOS（Silicon和Intel），支持GPU加速。
llama-cpp-python：一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
candle：一個注重性能的Rust機器學習框架，包括GPU支持，且易於使用。
ctransformers：一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。截至2023年11月27日，ctransformers已有很長時間未更新，不支持許多最新模型。

📦 安裝指南

下載模型

# mmproj
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-mmproj-f16.gguf

# fp16 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-f16.gguf

# int4 llm
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/llava-llama-3-8b-v1_1-int4.gguf

# (可選) ollama fp16 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_F16

# (可選) ollama int4 modelfile
wget https://huggingface.co/xtuner/llava-llama-3-8b-v1_1-gguf/resolve/main/OLLAMA_MODELFILE_INT4

💻 使用示例

使用`ollama`進行聊天

# fp16
ollama create llava-llama3-f16 -f ./OLLAMA_MODELFILE_F16
ollama run llava-llama3-f16 "xx.png Describe this image"

# int4
ollama create llava-llama3-int4 -f ./OLLAMA_MODELFILE_INT4
ollama run llava-llama3-int4 "xx.png Describe this image"

使用`llama.cpp`進行聊天

構建 llama.cpp（文檔）。
構建 ./llava-cli（文檔）。

注意：llava-llama-3-8b-v1_1使用Llama-3-instruct聊天模板。

# fp16
./llava-cli -m ./llava-llama-3-8b-v1_1-f16.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

# int4
./llava-cli -m ./llava-llama-3-8b-v1_1-int4.gguf --mmproj ./llava-llama-3-8b-v1_1-mmproj-f16.gguf --image YOUR_IMAGE.jpg -c 4096 -e -p "<|start_header_id|>user<|end_header_id|>\n\n<image>\nDescribe this image<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"

復現實驗

請參考文檔。

📚 詳細文檔

模型信息

llava-llama-3-8b-v1_1是一個基於LLaVA的模型，由XTuner在meta-llama/Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336的基礎上，使用ShareGPT4V-PT和InternVL-SFT進行微調得到。

注意：此模型為GGUF格式。

資源鏈接

GitHub：xtuner
HuggingFace LLaVA格式模型：xtuner/llava-llama-3-8b-v1_1-transformers
官方LLaVA格式模型：xtuner/llava-llama-3-8b-v1_1-hf
XTuner LLaVA格式模型：xtuner/llava-llama-3-8b-v1_1

模型詳情

模型	視覺編碼器	投影器	分辨率	預訓練策略	微調策略	預訓練數據集	微調數據集
LLaVA-v1.5-7B	CLIP-L	MLP	336	凍結LLM，凍結ViT	全量LLM，凍結ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B	CLIP-L	MLP	336	凍結LLM，凍結ViT	全量LLM，LoRA ViT	LLaVA-PT (558K)	LLaVA-Mix (665K)
LLaVA-Llama-3-8B-v1.1	CLIP-L	MLP	336	凍結LLM，凍結ViT	全量LLM，LoRA ViT	ShareGPT4V-PT (1246K)	InternVL-SFT (1268K)

實驗結果

模型	MMBench測試（英文）	MMBench測試（中文）	CCBench開發集	MMMU驗證集	SEED-IMG	AI2D測試	ScienceQA測試	HallusionBench準確率	POPE	GQA	TextVQA	MME	MMStar
LLaVA-v1.5-7B	66.5	59.0	27.5	35.3	60.5	54.8	70.4	44.9	85.9	62.0	58.2	1511/348	30.3
LLaVA-Llama-3-8B	68.9	61.6	30.4	36.8	69.8	60.9	73.3	47.3	87.2	63.5	58.0	1506/295	38.2
LLaVA-Llama-3-8B-v1.1	72.3	66.4	31.6	36.8	70.1	70.0	72.9	47.7	86.4	62.6	59.0	1469/349	45.1

🔧 技術細節

本項目將模型轉換為了GGUF格式，GGUF是llama.cpp團隊推出的新格式，取代了GGML格式。在微調過程中，使用了特定的數據集和策略，具體信息可參考上述詳細文檔部分。

📄 許可證

引用信息

@misc{2023xtuner,
    title={XTuner: A Toolkit for Efficiently Fine-tuning LLM},
    author={XTuner Contributors},
    howpublished = {\url{https://github.com/InternLM/xtuner}},
    year={2023}
}