🚀 Qwen2.5-Coder-14B-Instruct-abliterated的Llamacpp imatrix量化版本
本项目是对Qwen2.5-Coder-14B-Instruct-abliterated模型进行量化处理的成果。它借助特定工具和方法,生成了不同量化类型的模型文件,以满足不同用户在性能、质量和资源使用上的需求。用户可以根据自身设备的硬件条件,如RAM、VRAM的大小,选择合适的量化模型文件进行下载和使用。
🚀 快速开始
量化信息
使用 llama.cpp 版本 b4058 进行量化。
原始模型:https://huggingface.co/huihui-ai/Qwen2.5-Coder-14B-Instruct-abliterated
所有量化模型均使用imatrix选项,并采用来自 此处 的数据集。
运行环境
可以在 LM Studio 中运行这些量化模型。
提示格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📦 安装指南
安装huggingface-cli
首先,确保你已经安装了huggingface-cli:
pip install -U "huggingface_hub[cli]"
下载特定文件
然后,你可以指定要下载的特定文件:
huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./
下载拆分文件
如果模型大小超过50GB,它会被拆分成多个文件。要将它们全部下载到本地文件夹,可以运行:
huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0/*" --local-dir ./
你可以指定一个新的本地目录(如Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0),也可以直接下载到当前目录(./)。
📚 详细文档
下载文件选择
属性 |
详情 |
文件名 |
点击链接下载 |
量化类型 |
f16、Q8_0、Q6_K_L等多种类型 |
文件大小 |
从4.70GB到29.55GB不等 |
拆分情况 |
部分大文件会拆分,多数为false |
描述 |
包含不同质量和性能的说明 |
嵌入/输出权重
部分量化模型(如Q3_K_XL、Q4_K_L等)采用了标准量化方法,但将嵌入和输出权重量化为Q8_0,而非默认值。有人认为这样可以提高质量,也有人觉得没有区别。如果你使用了这些模型,请分享你的使用结果,我希望了解这些模型是否真正有用,以免上传无人使用的量化模型。
Q4_0_X_X量化类型
这些量化类型 不适用于 Metal(苹果)卸载,仅适用于ARM芯片。如果你使用的是ARM芯片,Q4_0_X_X量化类型会显著提高速度。你可以查看 原始拉取请求 中的Q4_0_4_4速度比较。要确定哪种量化类型最适合你的ARM芯片,可以查看 AArch64 SoC特性(感谢EloyOn!)。
如何选择文件
Artefact2 提供了一份很棒的文章,带有展示各种性能的图表,点击查看。首先,你需要确定可以运行的模型大小,这需要了解你拥有的系统内存(RAM)和/或显存(VRAM)大小。
- 追求最快速度:如果你希望模型运行尽可能快,应将整个模型放入GPU的显存中。选择文件大小比GPU总显存小1 - 2GB的量化模型。
- 追求最高质量:如果你追求绝对的最高质量,将系统内存和GPU显存相加,然后选择文件大小比该总和小1 - 2GB的量化模型。
接下来,你需要决定是否使用“I量化”或“K量化”。
- 不想过多考虑:选择K量化模型,格式为 'QX_K_X',如Q5_K_M。
- 深入研究:你可以查看这个非常有用的特性图表:llama.cpp特性矩阵。一般来说,如果你目标是低于Q4的量化,并且使用cuBLAS(英伟达)或rocBLAS(AMD),可以考虑I量化模型,格式为IQX_X,如IQ3_M。这些模型较新,在相同大小下性能更好。I量化模型也可以在CPU和苹果Metal上使用,但速度会比K量化模型慢,因此你需要在速度和性能之间做出权衡。I量化模型 不兼容 Vulcan(也是AMD),所以如果你使用AMD显卡,请仔细检查是使用rocBLAS版本还是Vulcan版本。撰写本文时,LM Studio有支持ROCm的预览版,其他推理引擎也有针对ROCm的特定版本。
📄 许可证
本项目采用 Apache 2.0许可证。
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。感谢ZeroWw启发我对嵌入/输出进行实验。如果你想支持我的工作,请访问我的ko-fi页面:https://ko-fi.com/bartowski。