nvidia_Llama-3.1-Nemotron-Nano-4B-v1.1-GGUF開源模型

首頁

Nvidia Llama 3.1 Nemotron Nano 4B V1.1 GGUF

由bartowski開發

基於NVIDIA Llama-3.1-Nemotron-Nano-4B-v1.1模型的量化版本，使用llama.cpp工具進行多種量化處理，適合在資源受限的環境中運行。

大型語言模型英語開源協議:其他 #高效量化 #多格式適配 #低內存優化

下載量 2,553

發布時間 : 5/20/2025

模型概述

這是一個4B參數規模的大語言模型，經過多種量化處理以減小模型體積，同時保持較高的推理質量。支持英語文本生成任務。

模型特點

多種量化選項

提供從BF16到Q2_K等多種量化版本，滿足不同硬件和性能需求

嵌入/輸出權重優化

部分量化版本(Q3_K_XL、Q4_K_L等)的嵌入和輸出權重使用Q8_0量化，提高質量

ARM/AVX優化

支持在線重打包功能，優化在ARM和AVX硬件上的運行性能

廣泛兼容性

可在LM Studio、llama.cpp及任何基於llama.cpp的項目中運行

模型能力

英語文本生成

對話系統

內容創作

使用案例

對話系統

智能助手

構建英語對話型智能助手

能夠理解並生成自然的英語對話

內容創作

文本生成

生成各種類型的英語文本內容

可生成連貫、有邏輯的英語文章

🚀 NVIDIA Llama-3.1-Nemotron-Nano-4B-v1.1的Llamacpp imatrix量化版本

本項目提供了基於llama.cpp對NVIDIA的Llama-3.1-Nemotron-Nano-4B-v1.1模型進行量化的版本。通過不同的量化類型，用戶可以根據自身硬件條件和需求選擇合適的模型文件，以在性能和質量之間取得平衡。

基本信息

屬性	詳情
量化者	bartowski
任務類型	文本生成
基礎模型	nvidia/Llama-3.1-Nemotron-Nano-4B-v1.1
許可證名稱	nvidia-open-model-license
語言	英文
訓練數據	nvidia/Llama-Nemotron-Post-Training-Dataset
標籤	nvidia, llama-3
許可證	其他
許可證鏈接	https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/
基礎模型關係	量化版本

🚀 快速開始

本項目使用 llama.cpp 的 b5432 版本進行量化。原始模型可從這裡獲取。

所有量化模型均使用 imatrix 選項和此數據集生成。你可以在 LM Studio 中運行這些模型，也可以直接使用 llama.cpp 或其他基於 llama.cpp 的項目運行。

✨ 主要特性

多種量化類型：提供了豐富的量化類型，如 bf16、Q8_0、Q6_K_L 等，滿足不同硬件和性能需求。
在線重打包：部分量化類型支持在線重打包，可自動優化權重以提高在 ARM 和 AVX 機器上的性能。
靈活選擇：用戶可以根據自身的 RAM、VRAM 以及對性能和質量的要求，選擇合適的量化模型。

📦 安裝指南

使用huggingface-cli下載

首先，確保你已安裝 huggingface-cli：

pip install -U "huggingface_hub[cli]"

然後，你可以指定要下載的具體文件：

huggingface-cli download bartowski/nvidia_Llama-3.1-Nemotron-Nano-4B-v1.1-GGUF --include "nvidia_Llama-3.1-Nemotron-Nano-4B-v1.1-Q4_K_M.gguf" --local-dir ./

如果模型文件大於 50GB，它會被拆分為多個文件。若要將它們全部下載到本地文件夾，可運行：

huggingface-cli download bartowski/nvidia_Llama-3.1-Nemotron-Nano-4B-v1.1-GGUF --include "nvidia_Llama-3.1-Nemotron-Nano-4B-v1.1-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄，也可以將它們下載到當前目錄。

💻 使用示例

提示格式

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

{system_prompt}<|eot_id|><|start_header_id|>user<|end_header_id|>

{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

📚 詳細文檔

下載文件列表

文件名	量化類型	文件大小	拆分情況	描述
Llama-3.1-Nemotron-Nano-4B-v1.1-bf16.gguf	bf16	9.03GB	false	完整的 BF16 權重。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q8_0.gguf	Q8_0	4.80GB	false	極高質量，通常不需要，但為最大可用量化。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q6_K_L.gguf	Q6_K_L	3.90GB	false	嵌入和輸出權重使用 Q8_0。非常高質量，接近完美，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q6_K.gguf	Q6_K	3.71GB	false	非常高質量，接近完美，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q5_K_L.gguf	Q5_K_L	3.47GB	false	嵌入和輸出權重使用 Q8_0。高質量，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q5_K_M.gguf	Q5_K_M	3.23GB	false	高質量，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q5_K_S.gguf	Q5_K_S	3.16GB	false	高質量，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q4_K_L.gguf	Q4_K_L	3.07GB	false	嵌入和輸出權重使用 Q8_0。質量良好，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q4_1.gguf	Q4_1	2.91GB	false	舊格式，性能與 Q4_K_S 相似，但在 Apple 硅芯片上的令牌/瓦特性能有所提高。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q3_K_XL.gguf	Q3_K_XL	2.81GB	false	嵌入和輸出權重使用 Q8_0。質量較低但可用，適合低 RAM 情況。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q4_K_M.gguf	Q4_K_M	2.78GB	false	質量良好，大多數用例的默認大小，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q4_K_S.gguf	Q4_K_S	2.66GB	false	質量略低，但節省更多空間，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q4_0.gguf	Q4_0	2.66GB	false	舊格式，支持 ARM 和 AVX CPU 推理的在線重打包。
Llama-3.1-Nemotron-Nano-4B-v1.1-IQ4_NL.gguf	IQ4_NL	2.66GB	false	與 IQ4_XS 相似，但略大。支持 ARM CPU 推理的在線重打包。
Llama-3.1-Nemotron-Nano-4B-v1.1-IQ4_XS.gguf	IQ4_XS	2.54GB	false	質量不錯，比 Q4_K_S 小，性能相似，推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q3_K_L.gguf	Q3_K_L	2.46GB	false	質量較低但可用，適合低 RAM 情況。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q3_K_M.gguf	Q3_K_M	2.30GB	false	低質量。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q2_K_L.gguf	Q2_K_L	2.22GB	false	嵌入和輸出權重使用 Q8_0。質量非常低，但出人意料地可用。
Llama-3.1-Nemotron-Nano-4B-v1.1-IQ3_M.gguf	IQ3_M	2.18GB	false	中低質量，採用新方法，性能與 Q3_K_M 相當。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q3_K_S.gguf	Q3_K_S	2.10GB	false	低質量，不推薦。
Llama-3.1-Nemotron-Nano-4B-v1.1-IQ3_XS.gguf	IQ3_XS	2.03GB	false	質量較低，採用新方法，性能不錯，略優於 Q3_K_S。
Llama-3.1-Nemotron-Nano-4B-v1.1-IQ3_XXS.gguf	IQ3_XXS	1.88GB	false	質量較低，採用新方法，性能不錯，與 Q3 量化相當。
Llama-3.1-Nemotron-Nano-4B-v1.1-Q2_K.gguf	Q2_K	1.84GB	false	質量非常低，但出人意料地可用。
Llama-3.1-Nemotron-Nano-4B-v1.1-IQ2_M.gguf	IQ2_M	1.72GB	false	質量相對較低，採用最先進技術，出人意料地可用。