モデル概要
モデル特徴
モデル能力
使用事例
🚀 NVIDIAによるOpenReasoning - Nemotron - 32BのLlamacpp imatrix量子化
このプロジェクトは、NVIDIAのOpenReasoning - Nemotron - 32Bモデルを量子化するためのものです。量子化には、llama.cppのリリース b5934 を使用しています。
🚀 クイックスタート
- 元のモデル: [https://huggingface.co/nvidia/OpenReasoning - Nemotron - 32B](https://huggingface.co/nvidia/OpenReasoning - Nemotron - 32B)
- すべての量子化モデルは、ここ のデータセットを使用して、imatrixオプションで作成されています。
- モデルは LM Studio で実行できます。
- また、llama.cpp または他のllama.cppベースのプロジェクトで直接実行することもできます。
✨ 主な機能
プロンプトフォーマット
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
ファイルのダウンロード
以下の表から、必要なファイルをダウンロードできます。
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
[OpenReasoning - Nemotron - 32B - bf16.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/tree/main/nvidia_OpenReasoning - Nemotron - 32B - bf16) | bf16 | 65.54GB | true | 完全なBF16重み。 |
[OpenReasoning - Nemotron - 32B - Q8_0.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q8_0.gguf) | Q8_0 | 34.82GB | false | 非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化。 |
[OpenReasoning - Nemotron - 32B - Q6_K_L.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q6_K_L.gguf) | Q6_K_L | 27.26GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に高品質で、ほぼ完璧で、推奨。 |
[OpenReasoning - Nemotron - 32B - Q6_K.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q6_K.gguf) | Q6_K | 26.89GB | false | 非常に高品質で、ほぼ完璧で、推奨。 |
[OpenReasoning - Nemotron - 32B - Q5_K_L.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q5_K_L.gguf) | Q5_K_L | 23.74GB | false | 埋め込みと出力の重みにQ8_0を使用。高品質で、推奨。 |
[OpenReasoning - Nemotron - 32B - Q5_K_M.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q5_K_M.gguf) | Q5_K_M | 23.26GB | false | 高品質で、推奨。 |
[OpenReasoning - Nemotron - 32B - Q5_K_S.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q5_K_S.gguf) | Q5_K_S | 22.64GB | false | 高品質で、推奨。 |
[OpenReasoning - Nemotron - 32B - Q4_1.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q4_1.gguf) | Q4_1 | 20.64GB | false | レガシーフォーマット、Q4_K_Sと同様のパフォーマンスで、Apple Siliconでのトークン/ワットが改善されています。 |
[OpenReasoning - Nemotron - 32B - Q4_K_L.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q4_K_L.gguf) | Q4_K_L | 20.43GB | false | 埋め込みと出力の重みにQ8_0を使用。良い品質で、推奨。 |
[OpenReasoning - Nemotron - 32B - Q4_K_M.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q4_K_M.gguf) | Q4_K_M | 19.85GB | false | 良い品質で、ほとんどのユースケースでのデフォルトサイズ、推奨。 |
[OpenReasoning - Nemotron - 32B - Q4_K_S.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q4_K_S.gguf) | Q4_K_S | 18.78GB | false | 品質が少し低いが、より多くのスペースを節約でき、推奨。 |
[OpenReasoning - Nemotron - 32B - Q4_0.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q4_0.gguf) | Q4_0 | 18.71GB | false | レガシーフォーマット、ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。 |
[OpenReasoning - Nemotron - 32B - IQ4_NL.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ4_NL.gguf) | IQ4_NL | 18.68GB | false | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。 |
[OpenReasoning - Nemotron - 32B - Q3_K_XL.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q3_K_XL.gguf) | Q3_K_XL | 17.93GB | false | 埋め込みと出力の重みにQ8_0を使用。品質は低いが使用可能で、低RAM環境に適しています。 |
[OpenReasoning - Nemotron - 32B - IQ4_XS.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ4_XS.gguf) | IQ4_XS | 17.69GB | false | 適度な品質で、Q4_K_Sより小さく、同様のパフォーマンスを持ち、推奨。 |
[OpenReasoning - Nemotron - 32B - Q3_K_L.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q3_K_L.gguf) | Q3_K_L | 17.25GB | false | 品質は低いが使用可能で、低RAM環境に適しています。 |
[OpenReasoning - Nemotron - 32B - Q3_K_M.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q3_K_M.gguf) | Q3_K_M | 15.94GB | false | 低品質。 |
[OpenReasoning - Nemotron - 32B - IQ3_M.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ3_M.gguf) | IQ3_M | 14.81GB | false | 中程度の低品質で、Q3_K_Mと同等のパフォーマンスを持つ新しい方法。 |
[OpenReasoning - Nemotron - 32B - Q3_K_S.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q3_K_S.gguf) | Q3_K_S | 14.39GB | false | 低品質で、推奨しません。 |
[OpenReasoning - Nemotron - 32B - IQ3_XS.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ3_XS.gguf) | IQ3_XS | 13.71GB | false | 品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sより少し良いです。 |
[OpenReasoning - Nemotron - 32B - Q2_K_L.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q2_K_L.gguf) | Q2_K_L | 13.07GB | false | 埋め込みと出力の重みにQ8_0を使用。非常に低品質ですが、意外と使用可能です。 |
[OpenReasoning - Nemotron - 32B - IQ3_XXS.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ3_XXS.gguf) | IQ3_XXS | 12.84GB | false | 品質は低いが、適度なパフォーマンスを持つ新しい方法で、Q3量子化と同等です。 |
[OpenReasoning - Nemotron - 32B - Q2_K.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - Q2_K.gguf) | Q2_K | 12.31GB | false | 非常に低品質ですが、意外と使用可能です。 |
[OpenReasoning - Nemotron - 32B - IQ2_M.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ2_M.gguf) | IQ2_M | 11.26GB | false | 比較的低品質ですが、最先端の技術を使用しているため、意外と使用可能です。 |
[OpenReasoning - Nemotron - 32B - IQ2_S.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ2_S.gguf) | IQ2_S | 10.39GB | false | 低品質ですが、最先端の技術を使用しているため、使用可能です。 |
[OpenReasoning - Nemotron - 32B - IQ2_XS.gguf](https://huggingface.co/bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF/blob/main/nvidia_OpenReasoning - Nemotron - 32B - IQ2_XS.gguf) | IQ2_XS | 9.96GB | false | 低品質ですが、最先端の技術を使用しているため、使用可能です。 |
埋め込み/出力の重み
一部の量子化(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルトではなくQ8_0に量子化されています。
📦 インストール
huggingface - cliを使用したダウンロード
ダウンロード手順を表示するにはクリック
まず、huggingface - cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF --include "nvidia_OpenReasoning - Nemotron - 32B - Q4_K_M.gguf" --local-dir ./
モデルが50GBを超える場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、次のコマンドを実行します。
huggingface-cli download bartowski/nvidia_OpenReasoning - Nemotron - 32B - GGUF --include "nvidia_OpenReasoning - Nemotron - 32B - Q8_0/*" --local-dir ./
新しいローカルディレクトリ(nvidia_OpenReasoning - Nemotron - 32B - Q8_0)を指定するか、すべてをその場所にダウンロードすることができます(./)。
🔧 技術詳細
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、ARMおよびAVXマシンでのパフォーマンスを向上させるために、メモリ内で重みをインターリーブして、一度により多くのデータをロードしていました。
しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細は このPR を参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、それは自動的に実行されます。
llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。
さらに、このPR により、ARM用に重みを再パッキングするIQ4_NLを使用することで、少し品質を向上させることができます。ただし、現在は4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度が向上します。
Q4_0_X_X情報を表示するにはクリック(非推奨)
このセクションは、オンライン再パッキングを使用したQ4_0の潜在的な理論上のパフォーマンス向上を示すために残しています。
AVX2システム(EPYC7702)でのベンチマークを表示するにはクリック
モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | Q4_0との比較 |
---|---|---|---|---|---|---|---|
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成にも小さな改善をもたらします。
どのファイルを選べばいいですか?
詳細はここをクリック
様々なパフォーマンスを示すチャート付きの素晴らしい記事がArtefact2によって ここ で提供されています。
まず、実行できるモデルのサイズを把握する必要があります。これを行うには、持っているRAMおよび/またはVRAMの量を把握する必要があります。
モデルをできるだけ高速に実行したい場合は、モデル全体をGPUのVRAMに収める必要があります。GPUの総VRAMより1 - 2GB小さいファイルサイズの量子化を目指してください。
絶対的な最高品質が必要な場合は、システムRAMとGPUのVRAMを合計し、同様にその合計より1 - 2GB小さいファイルサイズの量子化を選択してください。
次に、「I - 量子化」または「K - 量子化」を使用するかを決定する必要があります。
あまり深く考えたくない場合は、K - 量子化のいずれかを選択してください。これらは「QX_K_X」の形式で、Q5_K_Mのようなものです。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックすることができます。
[llama.cpp機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature - matrix)
基本的に、Q4以下を目指しており、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I - 量子化を検討する必要があります。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI - 量子化はCPUでも使用できますが、同等のK - 量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決定する必要があります。
📄 クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験のインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事を支援してくれたLM Studioに感謝します。
私の仕事を支援したい場合は、こちらのko - fiページを訪れてください。 [https://ko - fi.com/bartowski](https://ko - fi.com/bartowski)



