Qwen2-VL-2B-Instruct-GGUF開源模型 - 免費實現多模態圖像文本生成任務

首頁

Qwen2 VL 2B Instruct GGUF

由second-state開發

Qwen2-VL-2B-Instruct 是一個多模態視覺語言模型，支持圖像文本生成任務，基於 Qwen2 架構，參數規模為 2B。

圖像生成文本英語開源協議:Apache-2.0 #多模態圖像理解 #輕量級視覺問答 #低資源部署

下載量 125

發布時間 : 12/15/2024

模型概述

該模型是一個多模態視覺語言模型，能夠處理圖像和文本輸入，生成相關的文本輸出。適用於需要結合視覺和語言理解的應用場景。

模型特點

多模態支持

能夠同時處理圖像和文本輸入，生成相關的文本輸出。

高效量化

提供多種量化版本的模型，適用於不同硬件和性能需求。

長上下文支持

支持長達 32000 的上下文長度，適合處理複雜任務。

模型能力

圖像文本生成

多模態理解

視覺問答

使用案例

視覺問答

圖像描述生成

根據輸入的圖像生成詳細的文本描述。

視覺問答

回答關於輸入圖像的問題。

多模態交互

圖像與文本結合的任務

結合圖像和文本輸入，生成相關的文本輸出。

🚀 Qwen2-VL-2B-Instruct-GGUF

本項目提供了Qwen2-VL-2B-Instruct模型的量化GGUF版本，可結合LlamaEdge服務運行，支持圖像文本到文本的多模態處理。

🚀 快速開始

原始模型

原始模型為 Qwen/Qwen2-VL-2B-Instruct。

使用LlamaEdge運行

LlamaEdge版本：v0.16.0

提示模板

提示類型：qwen2-vision

提示字符串

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
<|vision_start|>{image_placeholder}<|vision_end|>{user_prompt}<|im_end|>
<|im_start|>assistant

上下文大小：32000

作為LlamaEdge服務運行

wasmedge --dir .:. \
  --nn-preload default:GGML:AUTO:Qwen2-VL-2B-Instruct-Q5_K_M.gguf \
  llama-api-server.wasm \
  --model-name Qwen2-VL-2B-Instruct \
  --prompt-template qwen2-vision \
  --llava-mmproj Qwen2-VL-2B-Instruct-vision-encoder.gguf \
  --ctx-size 32000

📦 量化的GGUF模型

名稱	量化方法	比特數	大小	使用場景
Qwen2-VL-2B-Instruct-Q2_K.gguf	Q2_K	2	676 MB	最小，但質量損失顯著，大多數情況下不推薦
Qwen2-VL-2B-Instruct-Q3_K_L.gguf	Q3_K_L	3	880 MB	較小，有較大質量損失
Qwen2-VL-2B-Instruct-Q3_K_M.gguf	Q3_K_M	3	824 MB	非常小，高質量損失
Qwen2-VL-2B-Instruct-Q3_K_S.gguf	Q3_K_S	3	761 MB	非常小，高質量損失
Qwen2-VL-2B-Instruct-Q4_0.gguf	Q4_0	4	935 MB	舊版；較小，質量損失非常高，建議使用Q3_K_M
Qwen2-VL-2B-Instruct-Q4_K_M.gguf	Q4_K_M	4	986 MB	中等，質量平衡，推薦
Qwen2-VL-2B-Instruct-Q4_K_S.gguf	Q4_K_S	4	940 MB	較小，質量損失較大
Qwen2-VL-2B-Instruct-Q5_0.gguf	Q5_0	5	1.10 GB	舊版；中等，質量平衡，建議使用Q4_K_M
Qwen2-VL-2B-Instruct-Q5_K_M.gguf	Q5_K_M	5	1.13 GB	較大，質量損失非常低，推薦
Qwen2-VL-2B-Instruct-Q5_K_S.gguf	Q5_K_S	5	1.10 GB	較大，質量損失低，推薦
Qwen2-VL-2B-Instruct-Q6_K.gguf	Q6_K	6	1.27 GB	非常大，質量損失極低
Qwen2-VL-2B-Instruct-Q8_0.gguf	Q8_0	8	1.65 GB	非常大，質量損失極低，不推薦
Qwen2-VL-2B-Instruct-f16.gguf	f16	16	3.09 GB
Qwen2-VL-2B-Instruct-vision-encoder.gguf	f16	16	2.66 GB

使用llama.cpp b4329進行量化

📄 許可證

本項目使用 apache-2.0 許可證。

屬性	詳情
基礎模型	Qwen/Qwen2-VL-2B-Instruct
許可證	apache-2.0
模型創建者	Qwen
模型名稱	Qwen2-VL-2B-Instruct
量化者	Second State Inc.
語言	en
任務類型	圖像文本到文本
標籤	多模態
庫名稱	transformers