nvidia_AceReason - Nemotron - 14B - GGUFオープンソース大規模モデル - 複数量化バージョンで異なるハードウェアに対応

ホーム

Nvidia AceReason Nemotron 14B GGUF

bartowskiによって開発

AceReason-Nemotron-14Bは14Bパラメータ規模の大規模言語モデルで、様々なハードウェア要件に対応する複数の量子化バージョンを提供します。

大規模言語モデルオープンソースライセンス:その他 #マルチ量子化オプション #推論最適化 #低RAM対応

ダウンロード数 1,772

リリース時間 : 5/23/2025

モデル概要

このモデルは高性能な大規模言語モデルで、様々な自然言語処理タスクに適しており、BF16から極低ビット量子化までの複数のバージョンを提供し、異なる計算環境のニーズに対応します。

モデル特徴

多様な量子化オプション

BF16から極低ビット量子化までの複数のバージョンを提供し、異なるハードウェア環境と性能要件に対応します。

高品質な推論

Q6_K_LやQ5_K_Mなどの量子化バージョンを使用することを推奨し、高品質を維持しながらリソース消費を削減できます。

ハードウェア最適化

ARMおよびAVXマシンのオンライン再パッケージ機能をサポートし、特定のハードウェア上での性能を最適化します。

新しい量子化技術

I-quantなどの新しい量子化手法を採用し、同じサイズでより優れた性能を提供します。

モデル能力

テキスト生成

自然言語理解

推論タスク処理

マルチターン対話

使用事例

汎用自然言語処理

テキスト生成

高品質で一貫性のあるテキストコンテンツを生成

量子化レベルによって生成品質が異なります

質問応答システム

知識質問応答と対話システムを構築

複雑な推論問題を処理できます

リソース制約環境でのアプリケーション

モバイルデバイス展開

低ビット量子化バージョンを使用してモバイルデバイスで実行

限られたリソース下で使用可能な性能を維持

## ファイル（ブランチ全体ではなく）を以下からダウンロード:

| ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
| -------- | ---------- | --------- | ----- | ----------- |
| [AceReason-Nemotron-14B-bf16.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-bf16.gguf) | bf16 | 29.55GB | false | 完全なBF16重み |
| [AceReason-Nemotron-14B-Q8_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q8_0.gguf) | Q8_0 | 15.70GB | false | 最高品質、通常不要だが利用可能な最大量子化 |
| [AceReason-Nemotron-14B-Q6_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q6_K_L.gguf) | Q6_K_L | 12.50GB | false | 埋め込みと出力重みにQ8_0を使用。非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-14B-Q6_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q6_K.gguf) | Q6_K | 12.12GB | false | 非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-14B-Q5_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_L.gguf) | Q5_K_L | 10.99GB | false | 埋め込みと出力重みにQ8_0を使用。高品質、*推奨* |
| [AceReason-Nemotron-14B-Q5_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_M.gguf) | Q5_K_M | 10.51GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-14B-Q5_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_S.gguf) | Q5_K_S | 10.27GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-14B-Q4_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_L.gguf) | Q4_K_L | 9.57GB | false | 埋め込みと出力重みにQ8_0を使用。良好な品質、*推奨* |
| [AceReason-Nemotron-14B-Q4_1.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_1.gguf) | Q4_1 | 9.39GB | false | レガシー形式、Q4_K_Sと類似性能だがAppleシリコンでトークン/ワット改善 |
| [AceReason-Nemotron-14B-Q4_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf) | Q4_K_M | 8.99GB | false | 良好な品質、ほとんどのユースケースでデフォルトサイズ、*推奨* |
| [AceReason-Nemotron-14B-Q3_K_XL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_XL.gguf) | Q3_K_XL | 8.61GB | false | 埋め込みと出力重みにQ8_0を使用。低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-14B-Q4_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_S.gguf) | Q4_K_S | 8.57GB | false | 品質はやや低いがスペース節約、*推奨* |
| [AceReason-Nemotron-14B-IQ4_NL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ4_NL.gguf) | IQ4_NL | 8.55GB | false | IQ4_XSと類似だがやや大きい。ARM CPU推論用オンライン再パッキング可能 |
| [AceReason-Nemotron-14B-Q4_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_0.gguf) | Q4_0 | 8.54GB | false | レガシー形式、ARM/AVX CPU推論用オンライン再パッキング可能 |
| [AceReason-Nemotron-14B-IQ4_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ4_XS.gguf) | IQ4_XS | 8.12GB | false | 良好な品質、Q4_K_Sより小型で類似性能、*推奨* |
| [AceReason-Nemotron-14B-Q3_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_L.gguf) | Q3_K_L | 7.92GB | false | 低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-14B-Q3_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_M.gguf) | Q3_K_M | 7.34GB | false | 低品質 |
| [AceReason-Nemotron-14B-IQ3_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_M.gguf) | IQ3_M | 6.92GB | false | 中低品質、Q3_K_Mに匹敵する性能の新しい手法 |
| [AceReason-Nemotron-14B-Q3_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_S.gguf) | Q3_K_S | 6.66GB | false | 低品質、非推奨 |
| [AceReason-Nemotron-14B-Q2_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q2_K_L.gguf) | Q2_K_L | 6.53GB | false | 埋め込みと出力重みにQ8_0を使用。非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-14B-IQ3_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_XS.gguf) | IQ3_XS | 6.38GB | false | 低品質、新しい手法、Q3_K_Sよりやや優れた性能 |
| [AceReason-Nemotron-14B-IQ3_XXS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_XXS.gguf) | IQ3_XXS | 5.95GB | false | 低品質、新しい手法、Q3量子化に匹敵する性能 |
| [AceReason-Nemotron-14B-Q2_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q2_K.gguf) | Q2_K | 5.77GB | false | 非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-14B-IQ2_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_M.gguf) | IQ2_M | 5.36GB | false | 比較的低品質、SOTA技術で驚くほど使用可能 |
| [AceReason-Nemotron-14B-IQ2_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_S.gguf) | IQ2_S | 5.00GB | false | 低品質、SOTA技術で使用可能 |
| [AceReason-Nemotron-14B-IQ2_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_XS.gguf) | IQ2_XS | 4.70GB | false | 低品質、SOTA技術で使用可能 |

## 埋め込み/出力重み

一部の量子化（Q3_K_XL、Q4_K_Lなど）は標準的な量子化手法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0で量子化されています。

## huggingface-cliを使用したダウンロード

<details>
  <summary>クリックしてダウンロード手順を表示</summary>

まず、huggingface-cliがインストールされていることを確認してください:

pip install -U "huggingface_hub[cli]"


次に、対象のファイルを指定できます:

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf" --local-dir ./


モデルが50GBより大きい場合、複数のファイルに分割されています。それらをすべてローカルフォルダにダウンロードするには、以下を実行します:

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q8_0/*" --local-dir ./


新しいlocal-dir（nvidia_AceReason-Nemotron-14B-Q8_0）を指定するか、すべてをその場（./）にダウンロードできます。

</details>

## ARM/AVX情報

以前はQ4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされ、ARMおよびAVXマシンでのパフォーマンスを向上させるために一度により多くのデータをロードしていました。

しかし現在は、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細は[このPR](https://github.com/ggerganov/llama.cpp/pull/9921)をご覧ください。Q4_0を使用し、ハードウェアが重みの再パッキングの恩恵を受ける場合、自動的にオンザフライで行われます。

llama.cppビルド[b4282](https://github.com/ggerganov/llama.cpp/releases/tag/b4282)以降、Q4_0_X_Xファイルを実行できなくなり、代わりにQ4_0を使用する必要があります。

さらに、[このPR](https://github.com/ggerganov/llama.cpp/pull/10541)のおかげで、IQ4_NLを使用すると、ARM向けに重みを再パッキングし、4_4のみですが、わずかに品質を向上させることができます。ロード時間は遅くなる可能性がありますが、全体的な速度向上につながります。

<details>
  <summary>クリックしてQ4_0_X_X情報を表示（非推奨）</summary>

Q4_0とオンライン再パッキングを使用した場合の潜在的な理論的性能向上を示すために、このセクションを保持しています。

<details>
  <summary>クリックしてAVX2システム（EPYC7702）でのベンチマークを表示</summary>

| モデル                          |       サイズ |     パラメータ | バックエンド    | スレッド |          テスト |                  t/s |  % (vs Q4_0)  |
| ------------------------------ | -----------: | ------------: | ---------- | -------: | -------------: | -------------------: |-------------: |
| qwen2 3B Q4_0                  |    1.70 GiB |      3.09 B | CPU        |       64 |          pp512 |        204.03 ± 1.03 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |      3.09 B | CPU        |       64 |         pp1024 |        282.92 ± 0.19 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |      3.09 B | CPU        |       64 |         pp2048 |        259.49 ± 0.44 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |      3.09 B | CPU        |       64 |          tg128 |         39.12 ± 0.27 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |      3.09 B | CPU        |       64 |          tg256 |         39.31 ± 0.69 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |      3.09 B | CPU        |       64 |          tg512 |         40.52 ± 0.03 |          100% |
| qwen2 3B Q4_K_M                |    1.79 GiB |      3.09 B | CPU        |       64 |          pp512 |        301.02 ± 1.74 |          147% |
| qwen2 3B Q4_K_M                |    1.79 GiB |      3.09 B | CPU        |       64 |         pp1024 |        287.23 ± 0.20 |          101% |
| qwen2 3B Q4_K_M                |    1.79 GiB |      3.09 B | CPU        |       64 |         pp2048 |        262.77 ± 1.81 |          101% |
| qwen2 3B Q4_K_M                |    1.79 GiB |      3.09 B | CPU        |       64 |          tg128 |         18.80 ± 0.99 |           48% |
| qwen2 3B Q4_K_M                |    1.79 GiB |      3.09 B | CPU        |       64 |          tg256 |         24.46 ± 3.04 |           83% |
| qwen2 3B Q4_K_M                |    1.79 GiB |      3.09 B | CPU        |       64 |          tg512 |         36.32 ± 3.59 |           90% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |      3.09 B | CPU        |       64 |          pp512 |        271.71 ± 3.53 |          133% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |      3.09 B | CPU        |       64 |         pp1024 |       279.86 ± 45.63 |          100% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |      3.09 B | CPU        |       64 |         pp2048 |        320.77 ± 5.00 |          124% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |      3.09 B | CPU        |       64 |          tg128 |         43.51 ± 0.05 |          111% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |      3.09 B | CPU        |       64 |          tg256 |         43.35 ± 0.09 |          110% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |      3.09 B | CPU        |       64 |          tg512 |         42.60 ± 0.31 |          105% |

Q4_0_8_8はプロンプト処理に良い向上をもたらし、テキスト生成にもわずかな向上をもたらします

</details>

</details>

## どのファイルを選ぶべきか？

<details>
  <summary>詳細はこちら</summary>

Artefact2によるさまざまな性能を示すチャートを含む素晴らしい説明が[こちら](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)にあります。

最初に、実行できるモデルのサイズを把握する必要があります。これを行うには、RAMやVRAMの量を把握する必要があります。

モデルを可能な限り高速に実行したい場合は、GPUのVRAM全体にモデルを収めたいでしょう。GPUの総VRAMより1-2GB小さい量子化を選択してください。

絶対的な最高品質を求めている場合は、システムRAMとGPUのVRAMを合計し、同様に合計より1-2GB小さい量子化を選択してください。

次に、「I-quant」または「K-quant」のどちらを使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは「QX_K_X」形式で、例えばQ5_K_Mなどです。

さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認できます:

[llama.cpp 機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix)

基本的に、Q4未満を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を実行している場合は、I-quantを検討してください。これらは「IQX_X」形式で、例えばIQ3_Mなどです。これらは新しく、サイズに対してより優れた性能を提供します。

これらのI-quantはCPUでも使用できますが、K-quant相当よりも遅くなるため、速度と性能のトレードオフを決定する必要があります。

</details>

## クレジット

imatrixキャリブレーションデータセット作成の支援をしてくれたkalomazeとDampfに感謝します。

埋め込み/出力の実験にインスピレーションを与えてくれたZeroWwに感謝します。

私の仕事を支援してくれたLM Studioに感謝します。

私の仕事を支援したいですか？私のko-fiページをご覧ください: https://ko-fi.com/bartowski