Qwen3-Embedding-4B-W4A16-G128开源模型 - 显著降显存，量化后性能损失小！

Qwen3 Embedding 4B W4A16 G128

由 boboliu 开发

这是经过GPTQ量化的Qwen3-Embedding-4B模型，显存使用量显著降低，性能损失较小。

下载量 141

发布时间 : 6/6/2025

模型简介

Qwen3-Embedding-4B-W4A16-G128是基于Qwen/Qwen3-Embedding-4B模型的GPTQ量化版本，主要用于文本嵌入任务，支持多语言处理。

高效量化

通过GPTQ量化技术，显存使用量从17430M降至11000M（不使用FA2）。

性能损失小

在C-MTEB评估中性能损失仅约0.72%，保持了较高的模型性能。

多语言支持

支持多语言文本嵌入任务，适用于国际化应用场景。

文本嵌入

多语言处理

高效推理

信息检索

文档检索

用于大规模文档检索系统，提高检索效率和准确性。

在C-MTEB评估中检索任务得分为76.15。

文本分类

情感分析

用于文本情感分类任务，提供高质量的文本嵌入表示。

在C-MTEB评估中分类任务得分为75.43。

C - MTEB	参数	任务均值	类型均值	分类	聚类	配对分类	重排序	检索	STS
multilingual - e5 - large - instruct	0.6B	58.08	58.24	69.80	48.23	64.52	57.45	63.65	45.81
bge - multilingual - gemma2	9B	67.64	68.52	75.31	59.30	86.67	68.28	73.73	55.19
gte - Qwen2 - 1.5B - instruct	1.5B	67.12	67.79	72.53	54.61	79.5	68.21	71.86	60.05
gte - Qwen2 - 7B - instruct	7.6B	71.62	72.19	75.77	66.06	81.16	69.24	75.70	65.20
ritrieve_zh_v1	0.3B	72.71	73.85	76.88	66.5	85.98	72.86	76.97	63.92
Qwen3 - Embedding - 4B	4B	72.27	73.51	75.46	77.89	83.34	66.05	77.03	61.26
本模型	4B - W4A16	71.75	73.05	75.43	77.51	83.04	65.73	76.15	60.47