Qwen3-Reranker-0.6B-W4A16-G128开源模型 - 优化显存使用且精度损失小

首页

Qwen3 Reranker 0.6B W4A16 G128

由 boboliu 开发

Qwen3-Reranker-0.6B的GPTQ量化版本，显存使用优化且精度损失小

文本分类

Transformers

开源协议:Apache-2.0 #GPTQ量化 #显存优化 #文本重排序

下载量 151

发布时间 : 6/7/2025

模型简介

这是一个基于Qwen/Qwen3-Reranker-0.6B的GPTQ量化模型，主要用于文本分类任务。通过量化技术显著降低了显存使用量，同时保持了较高的精度。

模型特点

显存优化

显存使用量从3228M降至2124M（无FA2），显著提升资源效率

精度保留

预计精度损失<5%，实际测试显示嵌入模型精度损失仅约0.7%

高效量化

使用GPTQ量化技术，结合Ultrachat、T2Ranking和COIG-CQIA作为校准集

模型能力

文本分类

文本重排序

使用案例

信息检索

搜索结果重排序

对搜索引擎返回的结果进行重新排序以提高相关性

文本处理

文档分类

对大量文档进行自动分类

属性	详情
基础模型	Qwen/Qwen3-Reranker-0.6B
任务类型	文本分类
标签	transformers

Apache-2.0

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

Nunchaku Flux.1 Dev Colossus

其他

Colossus Project Flux 的 Nunchaku 量化版本，旨在根据文本提示生成高质量图像。该模型在优化推理效率的同时，将性能损失降至最低。

图像生成英语

nunchaku-tech

235

Qwen2.5 VL 7B Abliterated Caption It GGUF

Apache-2.0

这是一个基于Qwen2.5-VL-7B模型的静态量化版本，专注于图像描述生成任务，支持多种语言。

olmOCR-7B-0725-FP8是基于Qwen2.5-VL-7B-Instruct模型，使用olmOCR-mix-0225数据集微调后量化为FP8版本的文档OCR模型。

Lucy-128k是基于Qwen3-1.7B开发的专注于代理式网络搜索和轻量级浏览的模型，在移动设备上也能高效运行。

智启未来，您的人工智能解决方案智库

Qwen3 Reranker 0.6B W4A16 G128

模型介绍

内容详情

替代品

模型简介

模型特点

模型能力

使用案例

🚀 Qwen3-Reranker-0.6B-W4A16-G128

🚀 快速开始

安装依赖

使用指南

✨ 主要特性

显存使用优化

精度损失评估

📄 许可证

📦 相关信息

精选推荐AI模型