模型概述
模型特點
模型能力
使用案例
🚀 NVIDIA AceReason - Nemotron - 1.1 - 7B的量化模型
本項目是對NVIDIA的AceReason - Nemotron - 1.1 - 7B模型進行量化處理,旨在優化模型在不同硬件上的運行效率,同時保持一定的性能和質量。
🚀 快速開始
運行環境
提示格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
✨ 主要特性
- 多種量化類型:提供了豐富的量化類型供選擇,如 bf16、Q8_0、Q6_K_L 等,滿足不同的性能和質量需求。
- 在線重打包:部分量化類型支持在線重打包功能,可自動優化硬件性能。
- 性能提升:通過量化處理,在保證一定質量的前提下,顯著減少模型文件大小,提高運行效率。
📦 安裝指南
安裝 huggingface - cli
pip install -U "huggingface_hub[cli]"
下載指定文件
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-1.1-7B-GGUF --include "nvidia_AceReason-Nemotron-1.1-7B-Q4_K_M.gguf" --local-dir ./
下載拆分文件
如果模型大於 50GB,已拆分為多個文件,可使用以下命令下載到本地文件夾:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-1.1-7B-GGUF --include "nvidia_AceReason-Nemotron-1.1-7B-Q8_0/*" --local-dir ./
💻 使用示例
選擇合適的量化文件
根據自身硬件配置和需求,選擇合適的量化文件進行下載和使用。具體選擇建議如下:
點擊查看詳情
首先,確定你能運行的模型大小,這需要了解你擁有的 RAM 和/或 VRAM 容量。
- 追求最快速度:若希望模型儘可能快地運行,應選擇文件大小比 GPU 的總 VRAM 小 1 - 2GB 的量化文件,以將整個模型放入 GPU 的 VRAM 中。
- 追求最高質量:若追求絕對的最高質量,將系統 RAM 和 GPU 的 VRAM 相加,然後選擇文件大小比該總和小 1 - 2GB 的量化文件。
其次,需要決定使用 'I - quant' 還是 'K - quant':
- 不想過多考慮:選擇 K - quant,格式為 'QX_K_X',如 Q5_K_M。
- 深入研究:可查看 [llama.cpp 特性矩陣](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)。一般來說,若目標量化級別低於 Q4,且使用 cuBLAS(NVIDIA)或 rocBLAS(AMD),應考慮 I - quant,格式為 IQX_X,如 IQ3_M。I - quant 較新,相同大小下性能更好,但在 CPU 上運行比 K - quant 慢,需要在速度和性能之間進行權衡。
📚 詳細文檔
量化信息
屬性 | 詳情 |
---|---|
量化工具 | 使用 llama.cpp 發佈版本 b5674 進行量化。 |
原始模型 | nvidia/AceReason - Nemotron - 1.1 - 7B |
校準數據集 | 所有量化均使用 imatrix 選項和 此處 的數據集。 |
下載文件列表
嵌入/輸出權重
部分量化類型(如 Q3_K_XL、Q4_K_L 等)採用標準量化方法,將嵌入和輸出權重量化為 Q8_0,而非默認值。
ARM/AVX 信息
以前,需要下載 Q4_0_4_4/4_8/8_8 文件,其權重在內存中交錯排列,以提高 ARM 和 AVX 機器的性能。現在,有了“在線重打包”功能,詳情見 此 PR。若使用 Q4_0 且硬件能從權重重打包中受益,將自動即時進行重打包。
從 llama.cpp 構建版本 b4282 開始,無法運行 Q4_0_X_X 文件,需使用 Q4_0。此外,若想獲得稍高質量,可使用 IQ4_NL,詳情見 此 PR,它也會為 ARM 重打包權重,目前僅支持 4_4 情況。加載時間可能會變慢,但總體速度會提高。
點擊查看 Q4_0_X_X 信息(已棄用)
保留此部分是為了展示使用支持在線重打包的 Q4_0 時理論上的性能提升。
點擊查看 AVX2 系統(EPYC7702)上的基準測試
模型 | 大小 | 參數 | 後端 | 線程數 | 測試類型 | 每秒令牌數 | 相對 Q4_0 的百分比 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8 在提示處理方面有顯著提升,在文本生成方面有小幅提升。
🔧 技術細節
本項目使用 llama.cpp 的特定版本(b5674)進行量化處理,利用 imatrix 選項和指定的校準數據集,確保量化的準確性和有效性。同時,引入了在線重打包技術,優化了 ARM 和 AVX 機器上的性能。
📄 許可證
本項目使用 [NVIDIA 開放模型許可證](https://www.nvidia.com/en - us/agreements/enterprise - software/nvidia - open - model - license/)。
致謝
感謝 kalomaze 和 Dampf 在創建 imatrix 校準數據集方面提供的幫助。 感謝 ZeroWw 在嵌入/輸出實驗方面提供的靈感。 感謝 LM Studio 對本項目的贊助。
如果您想支持我的工作,請訪問我的 ko - fi 頁面:[https://ko - fi.com/bartowski](https://ko - fi.com/bartowski)



