mlabonne_Qwen3-1.7B-abliterated-GGUF开源模型 - 支持多类型量化的文本生成工具

首页

Mlabonne Qwen3 1.7B Abliterated GGUF

由 bartowski 开发

这是一个基于Qwen3-1.7B-abliterated模型的量化版本，使用llama.cpp进行量化，支持多种量化类型，适用于文本生成任务。

大型语言模型 #多量化版本 #轻量级生成 #中文对话优化

下载量 1,493

发布时间 : 4/30/2025

模型简介

该模型是Qwen3-1.7B-abliterated的量化版本，适用于文本生成任务，支持多种量化类型，可在LM Studio或llama.cpp中运行。

模型特点

多种量化选项

提供从BF16到Q2_K的多种量化版本，满足不同硬件需求。

imatrix量化

使用imatrix选项进行量化，提升模型性能。

支持多种运行环境

可在LM Studio、llama.cpp或任何基于llama.cpp的项目中运行。

嵌入/输出权重优化

部分量化版本中，嵌入和输出权重被量化为Q8_0，提升性能。

模型能力

文本生成

多语言支持

量化推理

使用案例

文本生成

对话系统

可用于构建对话系统，生成自然语言响应。

内容创作

辅助生成文章、故事等内容。

🚀 mlabonne的Qwen3-1.7B-abliterated的Llamacpp imatrix量化版本

本项目是对mlabonne的Qwen3-1.7B-abliterated模型进行量化处理后的版本。通过量化，可在不同硬件条件下更高效地运行该模型。

🚀 快速开始

量化工具

使用 llama.cpp 的 b5228 版本进行量化。

原始模型

原始模型可从这里获取。

运行方式

使用LM Studio：可在 LM Studio 中运行量化后的模型。
使用llama.cpp：可直接使用 llama.cpp 或其他基于llama.cpp的项目运行。

✨ 主要特性

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

嵌入/输出权重

部分量化版本（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

ARM/AVX信息

以前，会下载Q4_0_4_4/4_8/8_8版本，其权重在内存中交错排列，以提高ARM和AVX机器的性能。
现在，有了“在线重新打包”功能，详情见此PR。若使用Q4_0且硬件适合重新打包权重，系统将自动进行。
从llama.cpp的 b4282 版本开始，无法运行Q4_0_X_X文件，需使用Q4_0。
若想获得更好的质量，可使用IQ4_NL，见此PR，它会为ARM重新打包权重，虽加载时间可能较长，但整体速度会提升。

📦 安装指南

使用huggingface-cli下载

点击查看下载说明

首先，确保已安装huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，可指定要下载的特定文件：

huggingface-cli download bartowski/mlabonne_Qwen3-1.7B-abliterated-GGUF --include "mlabonne_Qwen3-1.7B-abliterated-Q4_K_M.gguf" --local-dir ./

若模型大于50GB，会被拆分为多个文件。若要将所有文件下载到本地文件夹，可运行：

huggingface-cli download bartowski/mlabonne_Qwen3-1.7B-abliterated-GGUF --include "mlabonne_Qwen3-1.7B-abliterated-Q8_0/*" --local-dir ./

可指定新的本地目录（如mlabonne_Qwen3-1.7B-abliterated-Q8_0），或直接下载到当前目录（./）。

📚 详细文档

下载文件选择

点击查看详情

Artefact2提供了一份很棒的文档，包含各种性能图表，可从这里查看。

选择文件时，需考虑以下几点：

确定可运行的模型大小：需了解系统的RAM和/或VRAM容量。
- 若想模型运行速度最快，应选择文件大小比GPU的VRAM小1 - 2GB的量化版本。
- 若追求最高质量，可将系统RAM和GPU的VRAM相加，选择文件大小比该总和小1 - 2GB的量化版本。
选择'I-quant'或'K-quant'：
- 若不想过多考虑，可选择K-quant，格式为'QX_K_X'，如Q5_K_M。
- 若想深入了解，可查看 llama.cpp特性矩阵。一般来说，若目标是Q4以下，且使用cuBLAS（Nvidia）或rocBLAS（AMD），应考虑I-quant，格式为IQX_X，如IQ3_M。I-quant较新，相同大小下性能更好，但在CPU上运行比K-quant慢，需权衡速度和性能。

下载文件列表

文件名	量化类型	文件大小	拆分情况	描述
Qwen3-1.7B-abliterated-bf16.gguf	bf16	3.45GB	false	完整的BF16权重。
Qwen3-1.7B-abliterated-Q8_0.gguf	Q8_0	1.83GB	false	极高质量，通常无需使用，但为可用的最高量化版本。
Qwen3-1.7B-abliterated-Q6_K_L.gguf	Q6_K_L	1.49GB	false	嵌入和输出权重量化为Q8_0。非常高质量，接近完美，推荐。
Qwen3-1.7B-abliterated-Q6_K.gguf	Q6_K	1.42GB	false	非常高质量，接近完美，推荐。
Qwen3-1.7B-abliterated-Q5_K_L.gguf	Q5_K_L	1.33GB	false	嵌入和输出权重量化为Q8_0。高质量，推荐。
Qwen3-1.7B-abliterated-Q5_K_M.gguf	Q5_K_M	1.26GB	false	高质量，推荐。
Qwen3-1.7B-abliterated-Q5_K_S.gguf	Q5_K_S	1.23GB	false	高质量，推荐。
Qwen3-1.7B-abliterated-Q4_K_L.gguf	Q4_K_L	1.18GB	false	嵌入和输出权重量化为Q8_0。质量良好，推荐。
Qwen3-1.7B-abliterated-Q4_1.gguf	Q4_1	1.14GB	false	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上每瓦处理的令牌数有所提高。
Qwen3-1.7B-abliterated-Q4_K_M.gguf	Q4_K_M	1.11GB	false	质量良好，是大多数用例的默认大小，推荐。
Qwen3-1.7B-abliterated-Q3_K_XL.gguf	Q3_K_XL	1.08GB	false	嵌入和输出权重量化为Q8_0。质量较低但可用，适合内存不足的情况。
Qwen3-1.7B-abliterated-Q4_K_S.gguf	Q4_K_S	1.06GB	false	质量略低，但节省空间，推荐。
Qwen3-1.7B-abliterated-Q4_0.gguf	Q4_0	1.06GB	false	旧格式，支持为ARM和AVX CPU推理进行在线重新打包。
Qwen3-1.7B-abliterated-IQ4_NL.gguf	IQ4_NL	1.05GB	false	与IQ4_XS相似，但略大。支持为ARM CPU推理进行在线重新打包。
Qwen3-1.7B-abliterated-IQ4_XS.gguf	IQ4_XS	1.01GB	false	质量尚可，比Q4_K_S小，性能相似，推荐。
Qwen3-1.7B-abliterated-Q3_K_L.gguf	Q3_K_L	1.00GB	false	质量较低但可用，适合内存不足的情况。
Qwen3-1.7B-abliterated-Q3_K_M.gguf	Q3_K_M	0.94GB	false	质量较低。
Qwen3-1.7B-abliterated-IQ3_M.gguf	IQ3_M	0.90GB	false	中低质量，新方法，性能与Q3_K_M相当。
Qwen3-1.7B-abliterated-Q3_K_S.gguf	Q3_K_S	0.87GB	false	质量较低，不推荐。
Qwen3-1.7B-abliterated-Q2_K_L.gguf	Q2_K_L	0.85GB	false	嵌入和输出权重量化为Q8_0。质量极低但意外可用。
Qwen3-1.7B-abliterated-IQ3_XS.gguf	IQ3_XS	0.83GB	false	质量较低，新方法，性能尚可，略优于Q3_K_S。
Qwen3-1.7B-abliterated-Q2_K.gguf	Q2_K	0.78GB	false	质量极低但意外可用。
Qwen3-1.7B-abliterated-IQ3_XXS.gguf	IQ3_XXS	0.75GB	false	质量较低，新方法，性能尚可，与Q3量化版本相当。
Qwen3-1.7B-abliterated-IQ2_M.gguf	IQ2_M	0.70GB	false	质量相对较低，使用最新技术，意外可用。