模型简介
模型特点
模型能力
使用案例
🚀 ServiceNow-AI的Apriel-Nemotron-15b-Thinker量化模型
本项目是对ServiceNow-AI的Apriel-Nemotron-15b-Thinker模型进行量化处理,使用特定工具和方法生成不同量化类型的文件,方便在不同硬件和场景下使用。
🚀 快速开始
使用 llama.cpp 的 b5284 版本进行量化。 原始模型地址:https://huggingface.co/ServiceNow-AI/Apriel-Nemotron-15b-Thinker
所有量化文件均使用imatrix选项,并使用来自 此处 的数据集生成。
你可以在 LM Studio 中运行这些量化文件,也可以直接使用 llama.cpp 或其他基于llama.cpp的项目来运行。
✨ 主要特性
提示格式
<|system|>
You are a thoughtful and systematic AI assistant built by ServiceNow Language Models (SLAM) lab. Before providing an answer, analyze the problem carefully and present your reasoning step by step. After explaining your thought process, provide the final solution in the following format: [BEGIN FINAL RESPONSE] ... [END FINAL RESPONSE].
{system_prompt}
<|end|>
<|user|>
{prompt}
<|end|>
<|assistant|>
Here are my reasoning steps:
下载文件
文件名 | 量化类型 | 文件大小 | 分割情况 | 描述 |
---|---|---|---|---|
Apriel-Nemotron-15b-Thinker-bf16.gguf | bf16 | 29.96GB | false | 完整的BF16权重。 |
Apriel-Nemotron-15b-Thinker-Q8_0.gguf | Q8_0 | 15.92GB | false | 极高质量,通常不需要,但为最大可用量化。 |
Apriel-Nemotron-15b-Thinker-Q6_K_L.gguf | Q6_K_L | 12.62GB | false | 嵌入和输出权重使用Q8_0。非常高质量,接近完美,推荐。 |
Apriel-Nemotron-15b-Thinker-Q6_K.gguf | Q6_K | 12.29GB | false | 非常高质量,接近完美,推荐。 |
Apriel-Nemotron-15b-Thinker-Q5_K_L.gguf | Q5_K_L | 11.07GB | false | 嵌入和输出权重使用Q8_0。高质量,推荐。 |
Apriel-Nemotron-15b-Thinker-Q5_K_M.gguf | Q5_K_M | 10.65GB | false | 高质量,推荐。 |
Apriel-Nemotron-15b-Thinker-Q5_K_S.gguf | Q5_K_S | 10.39GB | false | 高质量,推荐。 |
Apriel-Nemotron-15b-Thinker-Q4_K_L.gguf | Q4_K_L | 9.61GB | false | 嵌入和输出权重使用Q8_0。质量良好,推荐。 |
Apriel-Nemotron-15b-Thinker-Q4_1.gguf | Q4_1 | 9.50GB | false | 旧格式,性能与Q4_K_S相似,但在苹果硅芯片上每瓦处理的令牌数有所提高。 |
Apriel-Nemotron-15b-Thinker-Q4_K_M.gguf | Q4_K_M | 9.11GB | false | 质量良好,是大多数用例的默认大小,推荐。 |
Apriel-Nemotron-15b-Thinker-Q4_K_S.gguf | Q4_K_S | 8.66GB | false | 质量稍低,但节省更多空间,推荐。 |
Apriel-Nemotron-15b-Thinker-IQ4_NL.gguf | IQ4_NL | 8.64GB | false | 与IQ4_XS相似,但稍大。为ARM CPU推理提供在线重新打包功能。 |
Apriel-Nemotron-15b-Thinker-Q4_0.gguf | Q4_0 | 8.63GB | false | 旧格式,为ARM和AVX CPU推理提供在线重新打包功能。 |
Apriel-Nemotron-15b-Thinker-Q3_K_XL.gguf | Q3_K_XL | 8.58GB | false | 嵌入和输出权重使用Q8_0。质量较低但可用,适合低内存情况。 |
Apriel-Nemotron-15b-Thinker-IQ4_XS.gguf | IQ4_XS | 8.20GB | false | 质量不错,比Q4_K_S小,性能相似,推荐。 |
Apriel-Nemotron-15b-Thinker-Q3_K_L.gguf | Q3_K_L | 7.99GB | false | 质量较低但可用,适合低内存情况。 |
Apriel-Nemotron-15b-Thinker-Q3_K_M.gguf | Q3_K_M | 7.40GB | false | 低质量。 |
Apriel-Nemotron-15b-Thinker-IQ3_M.gguf | IQ3_M | 6.94GB | false | 中低质量,新方法,性能与Q3_K_M相当。 |
Apriel-Nemotron-15b-Thinker-Q3_K_S.gguf | Q3_K_S | 6.71GB | false | 低质量,不推荐。 |
Apriel-Nemotron-15b-Thinker-Q2_K_L.gguf | Q2_K_L | 6.45GB | false | 嵌入和输出权重使用Q8_0。质量非常低,但出人意料地可用。 |
Apriel-Nemotron-15b-Thinker-IQ3_XS.gguf | IQ3_XS | 6.42GB | false | 质量较低,新方法,性能不错,比Q3_K_S稍好。 |
Apriel-Nemotron-15b-Thinker-IQ3_XXS.gguf | IQ3_XXS | 5.99GB | false | 质量较低,新方法,性能不错,与Q3量化相当。 |
Apriel-Nemotron-15b-Thinker-Q2_K.gguf | Q2_K | 5.79GB | false | 质量非常低,但出人意料地可用。 |
Apriel-Nemotron-15b-Thinker-IQ2_M.gguf | IQ2_M | 5.35GB | false | 相对低质量,使用最先进技术,出人意料地可用。 |
Apriel-Nemotron-15b-Thinker-IQ2_S.gguf | IQ2_S | 4.98GB | false | 低质量,使用最先进技术,可用。 |
Apriel-Nemotron-15b-Thinker-IQ2_XS.gguf | IQ2_XS | 4.72GB | false | 低质量,使用最先进技术,可用。 |
嵌入/输出权重
部分量化文件(如Q3_K_XL、Q4_K_L等)采用标准量化方法,将嵌入和输出权重量化为Q8_0,而非默认值。
ARM/AVX信息
以前,你会下载Q4_0_4_4/4_8/8_8文件,这些文件的权重会在内存中交错排列,以便通过一次加载更多数据来提高ARM和AVX机器的性能。
然而,现在有了一种称为“在线重新打包”的权重处理方式,详情见 此PR。如果你使用Q4_0,并且你的硬件能从权重重新打包中受益,它将自动实时进行处理。
从llama.cpp构建版本 b4282 开始,你将无法运行Q4_0_X_X文件,而需要使用Q4_0。
此外,如果你想获得稍好的质量,可以使用IQ4_NL,感谢 此PR,它也会为ARM重新打包权重,不过目前仅适用于4_4。加载时间可能会更长,但总体速度会提高。
点击查看Q4_0_X_X信息(已弃用)
我保留这部分内容是为了展示使用带有在线重新打包功能的Q4_0在性能上的潜在理论提升。
点击查看AVX2系统(EPYC7702)上的基准测试
模型 | 大小 | 参数 | 后端 | 线程数 | 测试 | 每秒令牌数 | 与Q4_0相比的百分比 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8在提示处理方面有不错的提升,在文本生成方面有小幅度提升。
选择合适的文件
点击查看详情
Artefact2提供了一篇很棒的文章,带有展示各种性能的图表,链接为 此处
首先,你需要确定你能运行多大的模型。为此,你需要了解你有多少内存(RAM)和/或显存(VRAM)。
如果你希望模型运行得尽可能快,你需要将整个模型放入GPU的显存中。选择文件大小比GPU总显存小1 - 2GB的量化文件。
如果你追求绝对的最高质量,将系统内存和GPU显存相加,然后选择文件大小比这个总和小1 - 2GB的量化文件。
接下来,你需要决定是使用“I量化”还是“K量化”。
如果你不想考虑太多,选择K量化文件,格式为 'QX_K_X',如Q5_K_M。
如果你想深入了解,可以查看这个非常有用的特性图表:
但基本上,如果你目标是低于Q4的量化,并且你使用的是cuBLAS(Nvidia)或rocBLAS(AMD),你应该考虑I量化文件,格式为IQX_X,如IQ3_M。这些是较新的量化方式,在相同大小下提供更好的性能。
这些I量化文件也可以在CPU上使用,但比对应的K量化文件慢,所以你需要在速度和性能之间做出权衡。
📦 安装指南
使用huggingface-cli下载
点击查看下载说明
首先,确保你已经安装了huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,你可以指定要下载的特定文件:
huggingface-cli download bartowski/ServiceNow-AI_Apriel-Nemotron-15b-Thinker-GGUF --include "ServiceNow-AI_Apriel-Nemotron-15b-Thinker-Q4_K_M.gguf" --local-dir ./
如果模型大于50GB,它会被分割成多个文件。要将它们全部下载到本地文件夹,请运行:
huggingface-cli download bartowski/ServiceNow-AI_Apriel-Nemotron-15b-Thinker-GGUF --include "ServiceNow-AI_Apriel-Nemotron-15b-Thinker-Q8_0/*" --local-dir ./
你可以指定一个新的本地目录(ServiceNow-AI_Apriel-Nemotron-15b-Thinker-Q8_0),也可以将它们全部下载到当前目录(./)
📚 详细文档
致谢
感谢kalomaze和Dampf协助创建imatrix校准数据集。 感谢ZeroWw在嵌入/输出实验方面提供的灵感。 感谢LM Studio对我工作的赞助。
如果你想支持我的工作,请访问我的ko-fi页面:https://ko-fi.com/bartowski
📄 许可证
本项目采用MIT许可证。
属性 | 详情 |
---|---|
量化者 | bartowski |
任务类型 | 文本生成 |
许可证 | MIT |
基础模型关系 | 量化 |
基础模型 | ServiceNow-AI/Apriel-Nemotron-15b-Thinker |



