nvidia_AceReason-Nemotron-7B-GGUF开源大模型 - 多量化版本适配不同硬件需求

首页

Nvidia AceReason Nemotron 7B GGUF

由 bartowski 开发

AceReason-Nemotron-7B 是一个基于 Nemotron 架构的 7B 参数规模的大型语言模型，提供多种量化版本以适应不同硬件需求。

大型语言模型开源协议:其他 #多精度量化 #推理优化 #低资源部署

下载量 209

发布时间 : 5/26/2025

模型简介

该模型主要用于文本生成和推理任务，支持多种量化选项以优化性能和资源使用。

模型特点

多种量化选项

提供从 BF16 到 Q2_K 的多种量化版本，适应不同硬件和性能需求。

高性能推理

支持嵌入和输出权重量化为 Q8_0，提升推理性能。

硬件优化

支持 ARM 和 AVX 机器的在线重新打包功能，优化内存使用和性能。

推荐量化版本

提供多个推荐量化版本（如 Q6_K_L、Q5_K_M 等），平衡性能和资源使用。

模型能力

文本生成

推理任务

多语言支持

使用案例

文本生成

内容创作

生成高质量的文章、故事或其他文本内容。

对话系统

用于构建智能对话机器人。

推理任务

逻辑推理

解决复杂的逻辑和推理问题。

🚀 NVIDIA AceReason - Nemotron - 7B的Llamacpp imatrix量化版本

本项目是对NVIDIA的AceReason - Nemotron - 7B模型进行量化处理的成果。借助量化技术，可在不同硬件条件下更高效地运行模型，满足多样化的使用需求。

🚀 快速开始

量化工具：使用 llama.cpp 发布版本 b5466 进行量化。
原始模型：[https://huggingface.co/nvidia/AceReason - Nemotron - 7B](https://huggingface.co/nvidia/AceReason - Nemotron - 7B)
运行方式：
- 可在 LM Studio 中运行。
- 也可直接使用 llama.cpp 或其他基于llama.cpp的项目运行。

✨ 主要特性

多量化类型支持：提供了多种量化类型的文件，如bf16、Q8_0、Q6_K_L等，可根据不同的硬件资源和性能需求进行选择。
在线重打包功能：部分量化文件支持在线重打包，可在ARM和AVX机器上自动优化性能。

📦 安装指南

安装huggingface - cli

首先，确保你已安装huggingface - cli：

pip install -U "huggingface_hub[cli]"

下载指定文件

你可以指定要下载的特定文件：

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大于50GB，它会被拆分为多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如nvidia_AceReason - Nemotron - 7B - Q8_0），也可以将它们全部下载到当前目录（./）。

💻 使用示例

基础用法

以下是使用huggingface - cli下载指定文件的示例：

# 下载指定文件
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q4_K_M.gguf" --local-dir ./

高级用法

如果你需要下载拆分的文件，可以使用以下命令：

# 下载拆分文件
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q8_0/*" --local-dir ./

📚 详细文档

提示格式

<｜begin▁of▁sentence｜>{system_prompt}<｜User｜>{prompt}<｜Assistant｜><｜end▁of▁sentence｜><｜Assistant｜><think>

下载文件列表

文件名	量化类型	文件大小	拆分情况	描述
AceReason - Nemotron - 7B - bf16.gguf	bf16	15.24GB	false	完整的BF16权重。
AceReason - Nemotron - 7B - Q8_0.gguf	Q8_0	8.10GB	false	极高质量，通常不需要，但为最大可用量化。
AceReason - Nemotron - 7B - Q6_K_L.gguf	Q6_K_L	6.52GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
AceReason - Nemotron - 7B - Q6_K.gguf	Q6_K	6.25GB	false	非常高质量，接近完美，推荐。
AceReason - Nemotron - 7B - Q5_K_L.gguf	Q5_K_L	5.78GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
AceReason - Nemotron - 7B - Q5_K_M.gguf	Q5_K_M	5.44GB	false	高质量，推荐。
AceReason - Nemotron - 7B - Q5_K_S.gguf	Q5_K_S	5.32GB	false	高质量，推荐。
AceReason - Nemotron - 7B - Q4_K_L.gguf	Q4_K_L	5.09GB	false	嵌入和输出权重使用Q8_0。质量良好，推荐。
AceReason - Nemotron - 7B - Q4_1.gguf	Q4_1	4.87GB	false	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上的每瓦令牌数有所提高。
AceReason - Nemotron - 7B - Q4_K_M.gguf	Q4_K_M	4.68GB	false	质量良好，大多数用例的默认大小，推荐。
AceReason - Nemotron - 7B - Q3_K_XL.gguf	Q3_K_XL	4.57GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
AceReason - Nemotron - 7B - Q4_K_S.gguf	Q4_K_S	4.46GB	false	质量略低，但节省空间，推荐。
AceReason - Nemotron - 7B - Q4_0.gguf	Q4_0	4.44GB	false	旧格式，提供了ARM和AVX CPU推理的在线重新打包功能。
AceReason - Nemotron - 7B - IQ4_NL.gguf	IQ4_NL	4.44GB	false	类似于IQ4_XS，但略大。提供了ARM CPU推理的在线重新打包功能。
AceReason - Nemotron - 7B - IQ4_XS.gguf	IQ4_XS	4.22GB	false	质量尚可，比Q4_K_S小，性能相似，推荐。
AceReason - Nemotron - 7B - Q3_K_L.gguf	Q3_K_L	4.09GB	false	质量较低但可用，适合低内存情况。
AceReason - Nemotron - 7B - Q3_K_M.gguf	Q3_K_M	3.81GB	false	低质量。
AceReason - Nemotron - 7B - IQ3_M.gguf	IQ3_M	3.57GB	false	中低质量，新方法，性能与Q3_K_M相当。
AceReason - Nemotron - 7B - Q2_K_L.gguf	Q2_K_L	3.55GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
AceReason - Nemotron - 7B - Q3_K_S.gguf	Q3_K_S	3.49GB	false	低质量，不推荐。
AceReason - Nemotron - 7B - IQ3_XS.gguf	IQ3_XS	3.35GB	false	质量较低，新方法，性能不错，略优于Q3_K_S。
AceReason - Nemotron - 7B - IQ3_XXS.gguf	IQ3_XXS	3.11GB	false	质量较低，新方法，性能不错，与Q3量化相当。
AceReason - Nemotron - 7B - Q2_K.gguf	Q2_K	3.02GB	false	质量非常低，但出人意料地可用。
AceReason - Nemotron - 7B - IQ2_M.gguf	IQ2_M	2.78GB	false	质量相对较低，使用了最先进的技术，出人意料地可用。