Qwen2.5-Coder-14B-Instruct-abliterated-GGUF开源编码模型多量化类型适配不同硬件

首页

Qwen2.5 Coder 14B Instruct Abliterated GGUF

由 bartowski 开发

Qwen2.5-Coder-14B-Instruct-abliterated的量化版本，支持多种量化类型，适用于不同硬件条件。

大型语言模型开源协议:Apache-2.0 #代码生成优化 #多量化适配 #低资源部署

下载量 1,240

发布时间 : 11/13/2024

模型简介

这是一个基于Qwen2.5-Coder-14B-Instruct-abliterated模型的量化版本，旨在通过不同量化方法优化模型在不同硬件上的运行效率和性能。

模型特点

多种量化选项

提供从f16到Q4_K_M等多种量化类型，满足不同硬件需求。

优化嵌入/输出权重

部分量化模型采用Q8_0量化嵌入和输出权重，可能提高模型质量。

ARM芯片优化

Q4_0_X_X量化类型专为ARM芯片优化，显著提高运行速度。

模型能力

代码生成

代码理解

文本生成

使用案例

软件开发

代码补全

在开发环境中提供代码补全建议。

提高开发效率

代码解释

解释复杂代码片段的功能和逻辑。

帮助理解现有代码

🚀 Qwen2.5-Coder-14B-Instruct-abliterated的Llamacpp imatrix量化版本

本项目是对Qwen2.5-Coder-14B-Instruct-abliterated模型进行量化处理的成果。它借助特定工具和方法，生成了不同量化类型的模型文件，以满足不同用户在性能、质量和资源使用上的需求。用户可以根据自身设备的硬件条件，如RAM、VRAM的大小，选择合适的量化模型文件进行下载和使用。

🚀 快速开始

量化信息

使用 llama.cpp 版本 b4058 进行量化。原始模型：https://huggingface.co/huihui-ai/Qwen2.5-Coder-14B-Instruct-abliterated 所有量化模型均使用imatrix选项，并采用来自此处的数据集。

运行环境

可以在 LM Studio 中运行这些量化模型。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 安装指南

安装huggingface-cli

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载特定文件

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大小超过50GB，它会被拆分成多个文件。要将它们全部下载到本地文件夹，可以运行：

huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0），也可以直接下载到当前目录（./）。

📚 详细文档

下载文件选择

属性	详情
文件名	点击链接下载
量化类型	f16、Q8_0、Q6_K_L等多种类型
文件大小	从4.70GB到29.55GB不等
拆分情况	部分大文件会拆分，多数为false
描述	包含不同质量和性能的说明

嵌入/输出权重

部分量化模型（如Q3_K_XL、Q4_K_L等）采用了标准量化方法，但将嵌入和输出权重量化为Q8_0，而非默认值。有人认为这样可以提高质量，也有人觉得没有区别。如果你使用了这些模型，请分享你的使用结果，我希望了解这些模型是否真正有用，以免上传无人使用的量化模型。

Q4_0_X_X量化类型

这些量化类型 不适用于 Metal（苹果）卸载，仅适用于ARM芯片。如果你使用的是ARM芯片，Q4_0_X_X量化类型会显著提高速度。你可以查看原始拉取请求中的Q4_0_4_4速度比较。要确定哪种量化类型最适合你的ARM芯片，可以查看 AArch64 SoC特性（感谢EloyOn！）。

如何选择文件

Artefact2 提供了一份很棒的文章，带有展示各种性能的图表，点击查看。首先，你需要确定可以运行的模型大小，这需要了解你拥有的系统内存（RAM）和/或显存（VRAM）大小。

追求最快速度：如果你希望模型运行尽可能快，应将整个模型放入GPU的显存中。选择文件大小比GPU总显存小1 - 2GB的量化模型。
追求最高质量：如果你追求绝对的最高质量，将系统内存和GPU显存相加，然后选择文件大小比该总和小1 - 2GB的量化模型。接下来，你需要决定是否使用“I量化”或“K量化”。
不想过多考虑：选择K量化模型，格式为 'QX_K_X'，如Q5_K_M。
深入研究：你可以查看这个非常有用的特性图表：llama.cpp特性矩阵。一般来说，如果你目标是低于Q4的量化，并且使用cuBLAS（英伟达）或rocBLAS（AMD），可以考虑I量化模型，格式为IQX_X，如IQ3_M。这些模型较新，在相同大小下性能更好。I量化模型也可以在CPU和苹果Metal上使用，但速度会比K量化模型慢，因此你需要在速度和性能之间做出权衡。I量化模型 不兼容 Vulcan（也是AMD），所以如果你使用AMD显卡，请仔细检查是使用rocBLAS版本还是Vulcan版本。撰写本文时，LM Studio有支持ROCm的预览版，其他推理引擎也有针对ROCm的特定版本。