Qwen3-Embedding-8B-W4A16-G128開源模型 - 降低顯存且高性能，免費部署超實用

Qwen3 Embedding 8B W4A16 G128

Developed by boboliu

Qwen3-Embedding-8B的GPTQ量化版本，顯著降低顯存需求同時保持高性能

Downloads 322

Release Time : 6/6/2025

Model Overview

基於Qwen3-Embedding-8B的4-bit量化模型，用於文本嵌入任務，在保持較高性能的同時大幅降低顯存需求

顯存優化

顯存使用從24G降至19624M，可在3090/4090顯卡上運行

性能保留

C-MTEB測試中性能損失僅0.81%，量化後仍保持高水平

高效量化

採用W4A16(4-bit權重，16-bit激活)量化方案

文本向量化

語義相似度計算

信息檢索

文本分類

文本聚類

信息檢索

文檔搜索

將查詢和文檔轉換為向量進行相似度匹配

在檢索任務中獲得77.39的得分

文本分類

多類別分類

利用嵌入向量進行文本分類

在分類任務中獲得76.85的得分

語義分析

語義相似度計算

計算文本對之間的語義相似度

在STS任務中獲得62.80的得分

C-MTEB	參數	任務平均得分	類型平均得分	分類	聚類	配對分類	重排序	檢索	STS
multilingual-e5-large-instruct	0.6B	58.08	58.24	69.80	48.23	64.52	57.45	63.65	45.81
bge-multilingual-gemma2	9B	67.64	75.31	59.30	86.67	68.28	73.73	55.19	-
gte-Qwen2-1.5B-instruct	1.5B	67.12	67.79	72.53	54.61	79.5	68.21	71.86	60.05
gte-Qwen2-7B-instruct	7.6B	71.62	72.19	75.77	66.06	81.16	69.24	75.70	65.20
ritrieve_zh_v1	0.3B	72.71	73.85	76.88	66.5	85.98	72.86	76.97	63.92
Qwen3-Embedding-8B	8B	73.84	75.00	76.97	80.08	84.23	66.99	78.21	63.53
本模型	8B-W4A16	73.24	74.38	76.85	79.58	83.21	66.43	77.39	62.80