ServiceNow-AI_Apriel-Nemotron-15b-Thinker-GGUF开源大模型

首页

Servicenow AI Apriel Nemotron 15b Thinker GGUF

由 bartowski 开发

这是一个由ServiceNow语言模型（SLAM）实验室构建的15B参数大语言模型，经过llama.cpp工具量化处理，适用于本地推理部署。

大型语言模型开源协议:MIT #高精度推理 #系统化思维 #多步骤分析

下载量 3,707

发布时间 : 5/7/2025

模型简介

该模型是一个深思熟虑且系统化的AI助手，能够进行复杂的推理任务，在提供答案前会展示详细的思考过程。

模型特点

多级量化选项

提供从BF16到Q2_K共22种量化级别，满足不同硬件条件下的部署需求

推理过程可视化

采用特殊的提示格式，在输出最终答案前会展示完整的推理步骤

本地部署优化

通过GGUF格式和量化技术，使大模型能够在消费级硬件上运行

高质量量化

使用llama.cpp的imatrix选项进行量化，保持模型性能的同时减小体积

模型能力

复杂问题推理

多轮对话

系统性思考

分步解答展示

使用案例

智能助手

技术问题解答

帮助用户解决复杂的技术问题，展示完整的思考过程

提供系统化、可解释的解决方案

教育应用

学习辅导

分步骤讲解复杂概念，帮助学生理解学习内容

提高学习效果和理解深度

🚀 ServiceNow-AI的Apriel-Nemotron-15b-Thinker量化模型

本项目是对ServiceNow-AI的Apriel-Nemotron-15b-Thinker模型进行量化处理，使用特定工具和方法生成不同量化类型的文件，方便在不同硬件和场景下使用。

🚀 快速开始

使用 llama.cpp 的 b5284 版本进行量化。原始模型地址：https://huggingface.co/ServiceNow-AI/Apriel-Nemotron-15b-Thinker

所有量化文件均使用imatrix选项，并使用来自此处的数据集生成。

你可以在 LM Studio 中运行这些量化文件，也可以直接使用 llama.cpp 或其他基于llama.cpp的项目来运行。

✨ 主要特性

提示格式

<|system|>
You are a thoughtful and systematic AI assistant built by ServiceNow Language Models (SLAM) lab. Before providing an answer, analyze the problem carefully and present your reasoning step by step. After explaining your thought process, provide the final solution in the following format: [BEGIN FINAL RESPONSE] ... [END FINAL RESPONSE].

{system_prompt}
<|end|>
<|user|>
{prompt}
<|end|>
<|assistant|>
Here are my reasoning steps:

下载文件

文件名	量化类型	文件大小	分割情况	描述
Apriel-Nemotron-15b-Thinker-bf16.gguf	bf16	29.96GB	false	完整的BF16权重。
Apriel-Nemotron-15b-Thinker-Q8_0.gguf	Q8_0	15.92GB	false	极高质量，通常不需要，但为最大可用量化。
Apriel-Nemotron-15b-Thinker-Q6_K_L.gguf	Q6_K_L	12.62GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
Apriel-Nemotron-15b-Thinker-Q6_K.gguf	Q6_K	12.29GB	false	非常高质量，接近完美，推荐。
Apriel-Nemotron-15b-Thinker-Q5_K_L.gguf	Q5_K_L	11.07GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
Apriel-Nemotron-15b-Thinker-Q5_K_M.gguf	Q5_K_M	10.65GB	false	高质量，推荐。
Apriel-Nemotron-15b-Thinker-Q5_K_S.gguf	Q5_K_S	10.39GB	false	高质量，推荐。
Apriel-Nemotron-15b-Thinker-Q4_K_L.gguf	Q4_K_L	9.61GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐。
Apriel-Nemotron-15b-Thinker-Q4_1.gguf	Q4_1	9.50GB	false	旧格式，性能与Q4_K_S相似，但在苹果硅芯片上每瓦处理的令牌数有所提高。
Apriel-Nemotron-15b-Thinker-Q4_K_M.gguf	Q4_K_M	9.11GB	false	质量良好，是大多数用例的默认大小，推荐。
Apriel-Nemotron-15b-Thinker-Q4_K_S.gguf	Q4_K_S	8.66GB	false	质量稍低，但节省更多空间，推荐。
Apriel-Nemotron-15b-Thinker-IQ4_NL.gguf	IQ4_NL	8.64GB	false	与IQ4_XS相似，但稍大。为ARM CPU推理提供在线重新打包功能。
Apriel-Nemotron-15b-Thinker-Q4_0.gguf	Q4_0	8.63GB	false	旧格式，为ARM和AVX CPU推理提供在线重新打包功能。
Apriel-Nemotron-15b-Thinker-Q3_K_XL.gguf	Q3_K_XL	8.58GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
Apriel-Nemotron-15b-Thinker-IQ4_XS.gguf	IQ4_XS	8.20GB	false	质量不错，比Q4_K_S小，性能相似，推荐。
Apriel-Nemotron-15b-Thinker-Q3_K_L.gguf	Q3_K_L	7.99GB	false	质量较低但可用，适合低内存情况。
Apriel-Nemotron-15b-Thinker-Q3_K_M.gguf	Q3_K_M	7.40GB	false	低质量。
Apriel-Nemotron-15b-Thinker-IQ3_M.gguf	IQ3_M	6.94GB	false	中低质量，新方法，性能与Q3_K_M相当。
Apriel-Nemotron-15b-Thinker-Q3_K_S.gguf	Q3_K_S	6.71GB	false	低质量，不推荐。
Apriel-Nemotron-15b-Thinker-Q2_K_L.gguf	Q2_K_L	6.45GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
Apriel-Nemotron-15b-Thinker-IQ3_XS.gguf	IQ3_XS	6.42GB	false	质量较低，新方法，性能不错，比Q3_K_S稍好。
Apriel-Nemotron-15b-Thinker-IQ3_XXS.gguf	IQ3_XXS	5.99GB	false	质量较低，新方法，性能不错，与Q3量化相当。
Apriel-Nemotron-15b-Thinker-Q2_K.gguf	Q2_K	5.79GB	false	质量非常低，但出人意料地可用。
Apriel-Nemotron-15b-Thinker-IQ2_M.gguf	IQ2_M	5.35GB	false	相对低质量，使用最先进技术，出人意料地可用。
Apriel-Nemotron-15b-Thinker-IQ2_S.gguf	IQ2_S	4.98GB	false	低质量，使用最先进技术，可用。
Apriel-Nemotron-15b-Thinker-IQ2_XS.gguf	IQ2_XS	4.72GB	false	低质量，使用最先进技术，可用。

嵌入/输出权重

部分量化文件（如Q3_K_XL、Q4_K_L等）采用标准量化方法，将嵌入和输出权重量化为Q8_0，而非默认值。

ARM/AVX信息

以前，你会下载Q4_0_4_4/4_8/8_8文件，这些文件的权重会在内存中交错排列，以便通过一次加载更多数据来提高ARM和AVX机器的性能。

然而，现在有了一种称为“在线重新打包”的权重处理方式，详情见此PR。如果你使用Q4_0，并且你的硬件能从权重重新打包中受益，它将自动实时进行处理。

从llama.cpp构建版本 b4282 开始，你将无法运行Q4_0_X_X文件，而需要使用Q4_0。

此外，如果你想获得稍好的质量，可以使用IQ4_NL，感谢此PR，它也会为ARM重新打包权重，不过目前仅适用于4_4。加载时间可能会更长，但总体速度会提高。

点击查看Q4_0_X_X信息（已弃用）

我保留这部分内容是为了展示使用带有在线重新打包功能的Q4_0在性能上的潜在理论提升。

点击查看AVX2系统（EPYC7702）上的基准测试

模型	大小	参数	后端	线程数	测试	每秒令牌数	与Q4_0相比的百分比
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp512	204.03 ± 1.03	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp1024	282.92 ± 0.19	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	pp2048	259.49 ± 0.44	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg128	39.12 ± 0.27	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg256	39.31 ± 0.69	100%
qwen2 3B Q4_0	1.70 GiB	3.09 B	CPU	64	tg512	40.52 ± 0.03	100%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp512	301.02 ± 1.74	147%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp1024	287.23 ± 0.20	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	pp2048	262.77 ± 1.81	101%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg128	18.80 ± 0.99	48%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg256	24.46 ± 3.04	83%
qwen2 3B Q4_K_M	1.79 GiB	3.09 B	CPU	64	tg512	36.32 ± 3.59	90%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp512	271.71 ± 3.53	133%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp1024	279.86 ± 45.63	100%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	pp2048	320.77 ± 5.00	124%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg128	43.51 ± 0.05	111%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg256	43.35 ± 0.09	110%
qwen2 3B Q4_0_8_8	1.69 GiB	3.09 B	CPU	64	tg512	42.60 ± 0.31	105%

Q4_0_8_8在提示处理方面有不错的提升，在文本生成方面有小幅度提升。

选择合适的文件

点击查看详情

Artefact2提供了一篇很棒的文章，带有展示各种性能的图表，链接为此处

首先，你需要确定你能运行多大的模型。为此，你需要了解你有多少内存（RAM）和/或显存（VRAM）。

如果你希望模型运行得尽可能快，你需要将整个模型放入GPU的显存中。选择文件大小比GPU总显存小1 - 2GB的量化文件。

如果你追求绝对的最高质量，将系统内存和GPU显存相加，然后选择文件大小比这个总和小1 - 2GB的量化文件。

接下来，你需要决定是使用“I量化”还是“K量化”。

如果你不想考虑太多，选择K量化文件，格式为 'QX_K_X'，如Q5_K_M。

如果你想深入了解，可以查看这个非常有用的特性图表：

llama.cpp特性矩阵

但基本上，如果你目标是低于Q4的量化，并且你使用的是cuBLAS（Nvidia）或rocBLAS（AMD），你应该考虑I量化文件，格式为IQX_X，如IQ3_M。这些是较新的量化方式，在相同大小下提供更好的性能。

这些I量化文件也可以在CPU上使用，但比对应的K量化文件慢，所以你需要在速度和性能之间做出权衡。

📦 安装指南

使用huggingface-cli下载

点击查看下载说明

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，你可以指定要下载的特定文件：

huggingface-cli download bartowski/ServiceNow-AI_Apriel-Nemotron-15b-Thinker-GGUF --include "ServiceNow-AI_Apriel-Nemotron-15b-Thinker-Q4_K_M.gguf" --local-dir ./

如果模型大于50GB，它会被分割成多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/ServiceNow-AI_Apriel-Nemotron-15b-Thinker-GGUF --include "ServiceNow-AI_Apriel-Nemotron-15b-Thinker-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（ServiceNow-AI_Apriel-Nemotron-15b-Thinker-Q8_0），也可以将它们全部下载到当前目录（./）