NVIDIA OpenReasoning - Nemotron - 1.5B-GGUF開源模型 - 優化運行提效不同硬件性能

首頁

Nvidia OpenReasoning Nemotron 1.5B GGUF

由bartowski開發

NVIDIA OpenReasoning - Nemotron - 1.5B的量化版本，通過llama.cpp工具優化，提升在不同硬件上的運行效率和性能。

大型語言模型 #高效推理優化 #多量化適配 #輕量級LLM

下載量 660

發布時間 : 7/18/2025

模型概述

這是一個1.5B參數規模的推理模型，經過量化處理，適用於多種硬件環境，特別注重推理效率和性能優化。

模型特點

多種量化類型

提供豐富的量化類型，如bf16、Q8_0、Q6_K_L等，滿足不同的性能和質量需求。

高效運行

部分量化版本針對ARM和AVX機器進行了優化，通過在線重新打包權重提高性能。

靈活下載

支持使用huggingface-cli下載特定文件或整個模型分支。

優化推理

使用imatrix選項和特定數據集進行量化，優化推理性能。

模型能力

文本生成

推理任務處理

多硬件兼容運行

使用案例

通用推理

對話系統

可用於構建對話系統，支持多輪對話。

文本生成

生成連貫、有邏輯的文本內容。

研究開發

模型量化研究

研究不同量化方法對模型性能的影響。

🚀 NVIDIA OpenReasoning - Nemotron - 1.5B的Llamacpp imatrix量化版本

本項目提供了NVIDIA OpenReasoning - Nemotron - 1.5B模型的量化版本，藉助llama.cpp工具進行量化處理，旨在提升模型在不同硬件上的運行效率和性能。

🚀 快速開始

運行環境

可在 LM Studio 中直接運行量化後的模型。
也可以使用 llama.cpp 或其他基於llama.cpp的項目來運行。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主要特性

多種量化類型：提供了豐富的量化類型，如bf16、Q8_0、Q6_K_L等，滿足不同的性能和質量需求。
高效運行：部分量化版本針對ARM和AVX機器進行了優化，通過在線重新打包權重提高性能。
靈活下載：支持使用huggingface - cli下載特定文件或整個模型分支。

📦 安裝指南

安裝huggingface - cli

pip install -U "huggingface_hub[cli]"

下載特定文件

huggingface-cli download bartowski/nvidia_OpenReasoning-Nemotron-1.5B-GGUF --include "nvidia_OpenReasoning-Nemotron-1.5B-Q4_K_M.gguf" --local-dir ./

下載拆分的大模型

huggingface-cli download bartowski/nvidia_OpenReasoning-Nemotron-1.5B-GGUF --include "nvidia_OpenReasoning-Nemotron-1.5B-Q8_0/*" --local-dir ./

📚 詳細文檔

下載文件列表

文件名	量化類型	文件大小	拆分情況	描述
OpenReasoning - Nemotron - 1.5B - bf16.gguf	bf16	3.09GB	false	完整的BF16權重。
OpenReasoning - Nemotron - 1.5B - Q8_0.gguf	Q8_0	1.65GB	false	極高質量，通常不需要，但為可用的最大量化。
OpenReasoning - Nemotron - 1.5B - Q6_K_L.gguf	Q6_K_L	1.33GB	false	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
OpenReasoning - Nemotron - 1.5B - Q6_K.gguf	Q6_K	1.27GB	false	非常高質量，接近完美，推薦。
OpenReasoning - Nemotron - 1.5B - Q5_K_L.gguf	Q5_K_L	1.18GB	false	嵌入和輸出權重使用Q8_0。高質量，推薦。
OpenReasoning - Nemotron - 1.5B - Q5_K_M.gguf	Q5_K_M	1.13GB	false	高質量，推薦。
OpenReasoning - Nemotron - 1.5B - Q5_K_S.gguf	Q5_K_S	1.10GB	false	高質量，推薦。
OpenReasoning - Nemotron - 1.5B - Q4_K_L.gguf	Q4_K_L	1.04GB	false	嵌入和輸出權重使用Q8_0。質量良好，推薦。
OpenReasoning - Nemotron - 1.5B - Q4_1.gguf	Q4_1	1.02GB	false	舊格式，性能與Q4_K_S相似，但在Apple硅芯片上提高了每瓦令牌數。
OpenReasoning - Nemotron - 1.5B - Q4_K_M.gguf	Q4_K_M	0.99GB	false	質量良好，大多數用例的默認大小，推薦。
OpenReasoning - Nemotron - 1.5B - Q4_K_S.gguf	Q4_K_S	0.94GB	false	質量略低，但節省更多空間，推薦。
OpenReasoning - Nemotron - 1.5B - Q4_0.gguf	Q4_0	0.94GB	false	舊格式，為ARM和AVX CPU推理提供在線重新打包。
OpenReasoning - Nemotron - 1.5B - IQ4_NL.gguf	IQ4_NL	0.94GB	false	與IQ4_XS相似，但略大。為ARM CPU推理提供在線重新打包。
OpenReasoning - Nemotron - 1.5B - Q3_K_XL.gguf	Q3_K_XL	0.94GB	false	嵌入和輸出權重使用Q8_0。質量較低但可用，適合低內存情況。
OpenReasoning - Nemotron - 1.5B - IQ4_XS.gguf	IQ4_XS	0.90GB	false	質量尚可，比Q4_K_S小，性能相似，推薦。
OpenReasoning - Nemotron - 1.5B - Q3_K_L.gguf	Q3_K_L	0.88GB	false	質量較低但可用，適合低內存情況。
OpenReasoning - Nemotron - 1.5B - Q3_K_M.gguf	Q3_K_M	0.82GB	false	低質量。
OpenReasoning - Nemotron - 1.5B - IQ3_M.gguf	IQ3_M	0.78GB	false	中低質量，新方法，性能與Q3_K_M相當。
OpenReasoning - Nemotron - 1.5B - Q3_K_S.gguf	Q3_K_S	0.76GB	false	低質量，不推薦。
OpenReasoning - Nemotron - 1.5B - IQ3_XS.gguf	IQ3_XS	0.73GB	false	質量較低，新方法，性能尚可，略優於Q3_K_S。
OpenReasoning - Nemotron - 1.5B - Q2_K_L.gguf	Q2_K_L	0.73GB	false	嵌入和輸出權重使用Q8_0。非常低質量，但出人意料地可用。
OpenReasoning - Nemotron - 1.5B - Q2_K.gguf	Q2_K	0.68GB	false	非常低質量，但出人意料地可用。
OpenReasoning - Nemotron - 1.5B - IQ3_XXS.gguf	IQ3_XXS	0.67GB	false	質量較低，新方法，性能尚可，與Q3量化相當。

嵌入/輸出權重

部分量化版本（如Q3_K_XL、Q4_K_L等）採用標準量化方法，將嵌入和輸出權重量化為Q8_0，而非默認值。

ARM/AVX信息

以前，會下載Q4_0_4_4/4_8/8_8，這些權重在內存中交錯排列，以提高ARM和AVX機器的性能。
現在，有了“在線重新打包”權重的功能，詳情見此PR。如果使用Q4_0且硬件適合重新打包權重，將自動進行。
從llama.cpp構建 b4282 開始，無法運行Q4_0_X_X文件，需使用Q4_0。
此外，藉助此PR，可以使用IQ4_NL獲得略高的質量，它也會為ARM重新打包權重，但目前僅支持4_4。加載時間可能較慢，但總體速度會提高。

如何選擇文件

點擊查看詳情

Artefact2 提供了一個很棒的文章，帶有展示各種性能的圖表，點擊查看

首先，要確定能運行多大的模型，這需要了解自己的RAM和/或VRAM容量。

如果希望模型運行儘可能快，應使整個模型適合GPU的VRAM。選擇文件大小比GPU總VRAM小1 - 2GB的量化版本。
如果追求絕對最高質量，將系統RAM和GPU的VRAM相加，然後選擇文件大小比該總和小1 - 2GB的量化版本。

其次，需要決定使用“I - 量化”還是“K - 量化”。

如果不想考慮太多，選擇K - 量化，格式為“QX_K_X”，如Q5_K_M。
如果想深入瞭解，可以查看 [llama.cpp特性矩陣](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)。
一般來說，如果目標是低於Q4，並且使用cuBLAS（Nvidia）或rocBLAS（AMD），應考慮I - 量化，格式為IQX_X，如IQ3_M。這些是較新的量化方式，相同大小下性能更好。
I - 量化也可在CPU上使用，但比K - 量化慢，需要在速度和性能之間進行權衡。