Qwen2-VL-7B-Instruct-GGUF 開源多模態模型 - 支持圖文聯合理解與生成

首頁

Qwen2 VL 7B Instruct GGUF

由second-state開發

Qwen2-VL-7B-Instruct 是一個多模態視覺語言模型，支持圖像和文本的聯合理解與生成任務。

圖像生成文本英語開源協議:Apache-2.0 #多模態視覺問答 #128K長上下文 #量化高效推理

下載量 195

發布時間 : 12/15/2024

模型概述

基於Qwen2架構的7B參數視覺語言指令模型，能夠處理圖像和文本輸入，生成相關文本輸出。

模型特點

多模態理解

能夠同時處理圖像和文本輸入，理解兩者之間的關係

大上下文窗口

支持128000 tokens的上下文長度

量化支持

提供多種量化版本，適應不同硬件需求

模型能力

圖像理解

文本生成

多模態推理

視覺問答

使用案例

內容理解

圖像描述生成

根據輸入圖像生成詳細的文字描述

視覺問答

回答關於圖像內容的自然語言問題

多模態交互

基於圖像的對話

結合圖像和文本進行自然對話

🚀 Qwen2-VL-7B-Instruct-GGUF

本項目提供了Qwen2-VL-7B-Instruct模型的量化版本，可通過LlamaEdge運行，支持多模態的圖像文本轉換任務。

🚀 快速開始

原始模型

Qwen/Qwen2-VL-7B-Instruct

使用LlamaEdge運行

LlamaEdge版本：v0.16.0

提示模板

提示類型：qwen2-vision

提示字符串

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
<|vision_start|>{image_placeholder}<|vision_end|>{user_prompt}<|im_end|>
<|im_start|>assistant

上下文大小：128000

作為LlamaEdge服務運行

wasmedge --dir .:. \
  --nn-preload default:GGML:AUTO:Qwen2-VL-7B-Instruct-Q5_K_M.gguf \
  llama-api-server.wasm \
  --model-name Qwen2-VL-7B-Instruct \
  --prompt-template qwen2-vision \
  --llava-mmproj Qwen2-VL-7B-Instruct-vision-encoder.gguf \
  --ctx-size 128000

📦 量化的GGUF模型

名稱	量化方法	比特數	大小	使用場景
Qwen2-VL-7B-Instruct-Q2_K.gguf	Q2_K	2	3.02 GB	最小，但質量顯著下降，不推薦用於大多數場景
Qwen2-VL-7B-Instruct-Q3_K_L.gguf	Q3_K_L	3	4.09 GB	小，質量有較大損失
Qwen2-VL-7B-Instruct-Q3_K_M.gguf	Q3_K_M	3	3.81 GB	非常小，質量損失高
Qwen2-VL-7B-Instruct-Q3_K_S.gguf	Q3_K_S	3	3.49 GB	非常小，質量損失高
Qwen2-VL-7B-Instruct-Q4_0.gguf	Q4_0	4	4.43 GB	舊版本；小，質量損失非常高，建議使用Q3_K_M
Qwen2-VL-7B-Instruct-Q4_K_M.gguf	Q4_K_M	4	4.68 GB	中等，質量平衡，推薦使用
Qwen2-VL-7B-Instruct-Q4_K_S.gguf	Q4_K_S	4	4.46 GB	小，質量損失較大
Qwen2-VL-7B-Instruct-Q5_0.gguf	Q5_0	5	5.32 GB	舊版本；中等，質量平衡，建議使用Q4_K_M
Qwen2-VL-7B-Instruct-Q5_K_M.gguf	Q5_K_M	5	5.44 GB	大，質量損失非常低，推薦使用
Qwen2-VL-7B-Instruct-Q5_K_S.gguf	Q5_K_S	5	5.32 GB	大，質量損失低，推薦使用
Qwen2-VL-7B-Instruct-Q6_K.gguf	Q6_K	6	6.25 GB	非常大，質量損失極低
Qwen2-VL-7B-Instruct-Q8_0.gguf	Q8_0	8	8.21 GB	非常大，質量損失極低，不推薦使用
Qwen2-VL-7B-Instruct-f16.gguf	f16	16	15.2 GB
Qwen2-VL-7B-Instruct-vision-encoder.gguf	f16	16	2.70 GB

使用llama.cpp b4329進行量化

📄 許可證

本項目使用apache-2.0許可證。

屬性	詳情
基礎模型	Qwen/Qwen2-VL-7B-Instruct
許可證	apache-2.0
模型創建者	Qwen
模型名稱	Qwen2-VL-7B-Instruct
量化者	Second State Inc.
語言	en
任務類型	圖像文本轉換
標籤	多模態
庫名稱	transformers