nvidia_AceReason-Nemotron-14B-GGUF開源大模型 - 多量化版本適配不同硬件

首頁

Nvidia AceReason Nemotron 14B GGUF

由bartowski開發

AceReason-Nemotron-14B 是一個14B參數規模的大型語言模型，提供多種量化版本以適應不同硬件需求。

大型語言模型開源協議:其他 #多量化選擇 #推理優化 #低RAM適配

下載量 1,772

發布時間 : 5/23/2025

模型概述

該模型是一個高性能的大型語言模型，適用於各種自然語言處理任務，提供從BF16到極低比特量化的多種版本，滿足不同計算環境的需求。

模型特點

多種量化選項

提供從BF16到極低比特量化的多種版本，適應不同硬件環境和性能需求。

高質量推理

推薦使用Q6_K_L或Q5_K_M等量化版本，可在保持高質量的同時減少資源消耗。

硬件優化

支持ARM和AVX機器的在線重打包功能，優化在特定硬件上的性能。

新量化技術

採用I-quant等新型量化方法，在相同大小下提供更好的性能。

模型能力

文本生成

自然語言理解

推理任務處理

多輪對話

使用案例

通用自然語言處理

文本生成

生成高質量、連貫的文本內容

根據量化級別不同，生成質量有所差異

問答系統

構建知識問答和對話系統

能夠處理複雜的推理問題

資源受限環境應用

移動設備部署

使用低比特量化版本在移動設備上運行

在有限資源下保持可用性能

🚀 英偉達AceReason - Nemotron - 14B的Llamacpp imatrix量化版本

本項目是英偉達AceReason - Nemotron - 14B模型的量化版本，使用llamacpp工具進行量化處理，為不同硬件條件和性能需求的用戶提供了多種量化選擇。

🚀 快速開始

使用 llama.cpp 版本 b5432 進行量化。

原始模型：https://huggingface.co/nvidia/AceReason - Nemotron - 14B
所有量化模型均使用imatrix選項，並採用來自此處的數據集。
可以在 LM Studio 中運行這些量化模型。
也可以直接使用 llama.cpp 或任何基於llama.cpp的項目來運行。

✨ 主要特性

多種量化類型：提供了豐富的量化類型，如bf16、Q8_0、Q6_K_L等，滿足不同的性能和質量需求。
在線重打包：部分量化模型支持在線重打包，可自動優化ARM和AVX機器的性能。
靈活選擇：用戶可以根據自己的硬件資源（如RAM、VRAM）和性能要求選擇合適的量化模型。

📦 安裝指南

使用huggingface - cli下載

首先，確保你已經安裝了huggingface - cli：

pip install -U "huggingface_hub[cli]"

然後，你可以指定要下載的特定文件：

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf" --local-dir ./

如果模型大小超過50GB，它會被分割成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如nvidia_AceReason - Nemotron - 14B - Q8_0），或者將它們全部下載到當前目錄（./）。

💻 使用示例

提示格式

<｜begin▁of▁sentence｜>{system_prompt}<｜User｜>{prompt}<｜Assistant｜><｜end▁of▁sentence｜><｜Assistant｜><think>

📚 詳細文檔

下載文件選擇

文件名	量化類型	文件大小	分割情況	描述
AceReason-Nemotron-14B-bf16.gguf	bf16	29.55GB	false	完整的BF16權重。
AceReason-Nemotron-14B-Q8_0.gguf	Q8_0	15.70GB	false	極高質量，通常不需要，但為最大可用量化。
AceReason-Nemotron-14B-Q6_K_L.gguf	Q6_K_L	12.50GB	false	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
AceReason-Nemotron-14B-Q5_K_L.gguf	Q5_K_L	10.99GB	false	嵌入和輸出權重使用Q8_0。高質量，推薦。
AceReason-Nemotron-14B-Q5_K_M.gguf	Q5_K_M	10.51GB	false	高質量，推薦。
AceReason-Nemotron-14B-Q5_K_S.gguf	Q5_K_S	10.27GB	false	高質量，推薦。
AceReason-Nemotron-14B-Q4_K_L.gguf	Q4_K_L	9.57GB	false	嵌入和輸出權重使用Q8_0。良好質量，推薦。
AceReason-Nemotron-14B-Q4_1.gguf	Q4_1	9.39GB	false	舊格式，性能與Q4_K_S相似，但在蘋果硅芯片上每瓦處理的令牌數有所提高。
AceReason-Nemotron-14B-Q4_K_M.gguf	Q4_K_M	8.99GB	false	良好質量，大多數用例的默認大小，推薦。
AceReason-Nemotron-14B-Q3_K_XL.gguf	Q3_K_XL	8.61GB	false	嵌入和輸出權重使用Q8_0。質量較低但可用，適合低RAM情況。
AceReason-Nemotron-14B-Q4_K_S.gguf	Q4_K_S	8.57GB	false	質量略低，但節省空間，推薦。
AceReason-Nemotron-14B-IQ4_NL.gguf	IQ4_NL	8.55GB	false	類似於IQ4_XS，但稍大。為ARM CPU推理提供在線重打包。
AceReason-Nemotron-14B-Q4_0.gguf	Q4_0	8.54GB	false	舊格式，為ARM和AVX CPU推理提供在線重打包。
AceReason-Nemotron-14B-IQ4_XS.gguf	IQ4_XS	8.12GB	false	質量不錯，比Q4_K_S小，性能相似，推薦。
AceReason-Nemotron-14B-Q3_K_L.gguf	Q3_K_L	7.92GB	false	質量較低但可用，適合低RAM情況。
AceReason-Nemotron-14B-Q3_K_M.gguf	Q3_K_M	7.34GB	false	低質量。
AceReason-Nemotron-14B-IQ3_M.gguf	IQ3_M	6.92GB	false	中低質量，新方法，性能與Q3_K_M相當。
AceReason-Nemotron-14B-Q3_K_S.gguf	Q3_K_S	6.66GB	false	低質量，不推薦。
AceReason-Nemotron-14B-Q2_K_L.gguf	Q2_K_L	6.53GB	false	嵌入和輸出權重使用Q8_0。質量非常低，但出人意料地可用。
AceReason-Nemotron-14B-IQ3_XS.gguf	IQ3_XS	6.38GB	false	質量較低，新方法，性能不錯，略優於Q3_K_S。
AceReason-Nemotron-14B-IQ3_XXS.gguf	IQ3_XXS	5.95GB	false	質量較低，新方法，性能不錯，與Q3量化相當。
AceReason-Nemotron-14B-Q2_K.gguf	Q2_K	5.77GB	false	質量非常低，但出人意料地可用。
AceReason-Nemotron-14B-IQ2_M.gguf	IQ2_M	5.36GB	false	質量相對較低，使用了最先進的技術，出人意料地可用。
AceReason-Nemotron-14B-IQ2_S.gguf	IQ2_S	5.00GB	false	低質量，使用了最先進的技術，可用。
AceReason-Nemotron-14B-IQ2_XS.gguf	IQ2_XS	4.70GB	false	低質量，使用了最先進的技術，可用。