微软NextCoder - 32B-GGUF开源代码模型 - 量化处理多硬件高效运行

首页

Microsoft NextCoder 32B GGUF

由 bartowski 开发

微软NextCoder - 32B模型的量化版本，使用llama.cpp工具对原模型进行量化处理，以在不同硬件条件下更高效地运行模型。

大型语言模型支持多种语言开源协议:MIT #高效量化推理 #多硬件适配 #编程辅助AI

下载量 2,495

发布时间 : 7/10/2025

模型简介

该项目提供了微软NextCoder - 32B模型的多种量化版本，支持在不同硬件条件下高效运行，适用于代码生成和编程辅助任务。

模型特点

多种量化类型

提供了丰富的量化类型供选择，如bf16、Q8_0、Q6_K_L等，以满足不同的性能和质量需求。

在线重打包

部分量化类型支持在线重打包权重，可在ARM和AVX机器上自动优化性能。

灵活下载

支持使用huggingface-cli下载特定文件或整个模型分支，便于用户按需获取。

模型能力

代码生成

编程辅助

高效推理

使用案例

编程开发

代码补全

在编程环境中提供代码补全建议，提高开发效率。

代码生成

根据用户需求生成特定功能的代码片段。

🚀 微软NextCoder - 32B的Llamacpp imatrix量化版本

本项目是微软NextCoder - 32B模型的量化版本，使用llama.cpp工具对原模型进行量化处理，以在不同硬件条件下更高效地运行模型。

🚀 快速开始

量化工具

使用 llama.cpp 的 b5856 版本进行量化。

原模型地址

https://huggingface.co/microsoft/NextCoder - 32B

运行方式

LM Studio：可在 LM Studio 中运行量化后的模型。
llama.cpp：也可以直接使用 llama.cpp 或任何基于llama.cpp的项目来运行。

✨ 主要特性

多种量化类型：提供了丰富的量化类型供选择，如bf16、Q8_0、Q6_K_L等，以满足不同的性能和质量需求。
在线重打包：部分量化类型支持在线重打包权重，可在ARM和AVX机器上自动优化性能。
灵活下载：支持使用huggingface - cli下载特定文件或整个模型分支。

📦 安装指南

安装huggingface - cli

pip install -U "huggingface_hub[cli]"

下载特定文件

huggingface-cli download bartowski/microsoft_NextCoder-32B-GGUF --include "microsoft_NextCoder-32B-Q4_K_M.gguf" --local-dir ./

下载拆分的大模型

如果模型大于50GB，已拆分为多个文件，可使用以下命令下载到本地文件夹：

huggingface-cli download bartowski/microsoft_NextCoder-32B-GGUF --include "microsoft_NextCoder-32B-Q8_0/*" --local-dir ./

可以指定新的本地目录，也可以直接下载到当前目录。

💻 使用示例

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📚 详细文档

下载文件列表

文件名	量化类型	文件大小	拆分情况	描述
NextCoder - 32B - bf16.gguf	bf16	65.54GB	true	完整的BF16权重。
NextCoder - 32B - Q8_0.gguf	Q8_0	34.82GB	false	极高质量，通常不需要，但为最大可用量化。
NextCoder - 32B - Q6_K_L.gguf	Q6_K_L	27.26GB	false	嵌入和输出权重使用Q8_0量化。非常高质量，接近完美，推荐。
……	……	……	……	……
NextCoder - 32B - IQ2_XXS.gguf	IQ2_XXS	9.03GB	false	极低质量，使用SOTA技术使其可用。

嵌入/输出权重

部分量化类型（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

ARM/AVX信息

以前，需要下载Q4_0_4_4/4_8/8_8文件，这些文件的权重在内存中交错排列，以提高ARM和AVX机器的性能。现在，有了“在线重打包”功能，详情见此PR。如果使用Q4_0且硬件能从权重重打包中受益，将自动进行实时重打包。

从llama.cpp构建 b4282 版本开始，将无法运行Q4_0_X_X文件，需使用Q4_0。此外，由于此PR，可以使用IQ4_NL获得稍好的质量，它也会为ARM重打包权重，但目前仅支持4_4。加载时间可能会变慢，但总体速度会提高。

如何选择文件

点击查看详情

首先，需要确定能运行的模型大小，这取决于可用的RAM和/或VRAM。 - **追求最快速度**：如果希望模型尽可能快地运行，应选择文件大小比GPU总VRAM小1 - 2GB的量化文件，以将整个模型放入GPU的VRAM中。 - **追求最高质量**：如果追求绝对最高质量，将系统RAM和GPU的VRAM相加，然后选择文件大小比该总和小1 - 2GB的量化文件。

接下来，需要决定使用“I - 量化”还是“K - 量化”。

简单选择：如果不想过多考虑，选择K - 量化文件，格式为“QX_K_X”，如Q5_K_M。
深入了解：如果想深入了解，可以查看 [llama.cpp特性矩阵](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)。一般来说，如果目标是低于Q4的量化，并且使用cuBLAS（Nvidia）或rocBLAS（AMD），应选择I - 量化文件，格式为IQX_X，如IQ3_M。这些是较新的量化类型，在相同大小下提供更好的性能。不过，I - 量化文件在CPU上运行时会比K - 量化文件慢，因此需要在速度和性能之间进行权衡。