🚀 NVIDIA OpenReasoning - Nemotron - 1.5B的Llamacpp imatrix量化版本
本項目提供了NVIDIA OpenReasoning - Nemotron - 1.5B模型的量化版本,藉助llama.cpp工具進行量化處理,旨在提升模型在不同硬件上的運行效率和性能。
🚀 快速開始
運行環境
提示格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
✨ 主要特性
- 多種量化類型:提供了豐富的量化類型,如bf16、Q8_0、Q6_K_L等,滿足不同的性能和質量需求。
- 高效運行:部分量化版本針對ARM和AVX機器進行了優化,通過在線重新打包權重提高性能。
- 靈活下載:支持使用huggingface - cli下載特定文件或整個模型分支。
📦 安裝指南
安裝huggingface - cli
pip install -U "huggingface_hub[cli]"
下載特定文件
huggingface-cli download bartowski/nvidia_OpenReasoning-Nemotron-1.5B-GGUF --include "nvidia_OpenReasoning-Nemotron-1.5B-Q4_K_M.gguf" --local-dir ./
下載拆分的大模型
huggingface-cli download bartowski/nvidia_OpenReasoning-Nemotron-1.5B-GGUF --include "nvidia_OpenReasoning-Nemotron-1.5B-Q8_0/*" --local-dir ./
📚 詳細文檔
下載文件列表
嵌入/輸出權重
部分量化版本(如Q3_K_XL、Q4_K_L等)採用標準量化方法,將嵌入和輸出權重量化為Q8_0,而非默認值。
ARM/AVX信息
- 以前,會下載Q4_0_4_4/4_8/8_8,這些權重在內存中交錯排列,以提高ARM和AVX機器的性能。
- 現在,有了“在線重新打包”權重的功能,詳情見 此PR。如果使用Q4_0且硬件適合重新打包權重,將自動進行。
- 從llama.cpp構建 b4282 開始,無法運行Q4_0_X_X文件,需使用Q4_0。
- 此外,藉助 此PR,可以使用IQ4_NL獲得略高的質量,它也會為ARM重新打包權重,但目前僅支持4_4。加載時間可能較慢,但總體速度會提高。
如何選擇文件
點擊查看詳情
Artefact2 提供了一個很棒的文章,帶有展示各種性能的圖表,點擊查看
首先,要確定能運行多大的模型,這需要了解自己的RAM和/或VRAM容量。
- 如果希望模型運行儘可能快,應使整個模型適合GPU的VRAM。選擇文件大小比GPU總VRAM小1 - 2GB的量化版本。
- 如果追求絕對最高質量,將系統RAM和GPU的VRAM相加,然後選擇文件大小比該總和小1 - 2GB的量化版本。
其次,需要決定使用“I - 量化”還是“K - 量化”。
- 如果不想考慮太多,選擇K - 量化,格式為“QX_K_X”,如Q5_K_M。
- 如果想深入瞭解,可以查看 [llama.cpp特性矩陣](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)。
- 一般來說,如果目標是低於Q4,並且使用cuBLAS(Nvidia)或rocBLAS(AMD),應考慮I - 量化,格式為IQX_X,如IQ3_M。這些是較新的量化方式,相同大小下性能更好。
- I - 量化也可在CPU上使用,但比K - 量化慢,需要在速度和性能之間進行權衡。
🔧 技術細節
量化工具
使用 llama.cpp 版本 b5934 進行量化。
原始模型
原始模型地址:https://huggingface.co/nvidia/OpenReasoning - Nemotron - 1.5B
量化數據集
所有量化版本均使用imatrix選項和 此處 的數據集。
📄 許可證
文檔未提及相關許可證信息。
致謝
感謝kalomaze和Dampf在創建imatrix校準數據集時提供的幫助。
感謝ZeroWw在嵌入/輸出實驗方面提供的靈感。
感謝LM Studio對本項目的贊助。
如果想支持作者的工作,請訪問作者的ko - fi頁面:https://ko - fi.com/bartowski