Qwen3-Embedding-4B-W4A16-G128開源模型 - 顯著降顯存，量化後性能損失小！

Qwen3 Embedding 4B W4A16 G128

由boboliu開發

這是經過GPTQ量化的Qwen3-Embedding-4B模型，顯存使用量顯著降低，性能損失較小。

下載量 141

發布時間 : 6/6/2025

模型概述

Qwen3-Embedding-4B-W4A16-G128是基於Qwen/Qwen3-Embedding-4B模型的GPTQ量化版本，主要用於文本嵌入任務，支持多語言處理。

高效量化

通過GPTQ量化技術，顯存使用量從17430M降至11000M（不使用FA2）。

性能損失小

在C-MTEB評估中性能損失僅約0.72%，保持了較高的模型性能。

多語言支持

支持多語言文本嵌入任務，適用於國際化應用場景。

文本嵌入

多語言處理

高效推理

信息檢索

文檔檢索

用於大規模文檔檢索系統，提高檢索效率和準確性。

在C-MTEB評估中檢索任務得分為76.15。

文本分類

情感分析

用於文本情感分類任務，提供高質量的文本嵌入表示。

在C-MTEB評估中分類任務得分為75.43。

C - MTEB	參數	任務均值	類型均值	分類	聚類	配對分類	重排序	檢索	STS
multilingual - e5 - large - instruct	0.6B	58.08	58.24	69.80	48.23	64.52	57.45	63.65	45.81
bge - multilingual - gemma2	9B	67.64	68.52	75.31	59.30	86.67	68.28	73.73	55.19
gte - Qwen2 - 1.5B - instruct	1.5B	67.12	67.79	72.53	54.61	79.5	68.21	71.86	60.05
gte - Qwen2 - 7B - instruct	7.6B	71.62	72.19	75.77	66.06	81.16	69.24	75.70	65.20
ritrieve_zh_v1	0.3B	72.71	73.85	76.88	66.5	85.98	72.86	76.97	63.92
Qwen3 - Embedding - 4B	4B	72.27	73.51	75.46	77.89	83.34	66.05	77.03	61.26
本模型	4B - W4A16	71.75	73.05	75.43	77.51	83.04	65.73	76.15	60.47