nvidia_AceReason - Nemotron - 7B - GGUFオープンソース大規模モデル - 複数の量子化バージョンで様々なハードウェア要件に対応

ホーム

Nvidia AceReason Nemotron 7B GGUF

bartowskiによって開発

AceReason-Nemotron-7B は Nemotron アーキテクチャに基づく 7B パラメータ規模の大規模言語モデルで、さまざまなハードウェア要件に対応するために複数の量子化バージョンを提供します。

大規模言語モデルオープンソースライセンス:その他 #マルチ精度量子化 #推論最適化 #低リソース展開

ダウンロード数 209

リリース時間 : 5/26/2025

モデル概要

このモデルは主にテキスト生成と推論タスクに使用され、パフォーマンスとリソース使用を最適化するために複数の量子化オプションをサポートしています。

モデル特徴

複数の量子化オプション

BF16 から Q2_K までの複数の量子化バージョンを提供し、さまざまなハードウェアとパフォーマンス要件に対応します。

高性能推論

埋め込みと出力重みの Q8_0 量子化をサポートし、推論性能を向上させます。

ハードウェア最適化

ARM および AVX マシンのオンライン再パッケージ機能をサポートし、メモリ使用とパフォーマンスを最適化します。

推奨量子化バージョン

複数の推奨量子化バージョン（Q6_K_L、Q5_K_M など）を提供し、パフォーマンスとリソース使用のバランスを取ります。

モデル能力

テキスト生成

推論タスク

多言語サポート

使用事例

テキスト生成

コンテンツ作成

高品質の記事、ストーリー、またはその他のテキストコンテンツを生成します。

対話システム

インテリジェントなチャットボットの構築に使用されます。

推論タスク

論理的推論

複雑な論理と推論の問題を解決します。

## ファイル（ブランチ全体ではなく）を以下からダウンロードしてください:

| ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
| -------- | ---------- | --------- | ----- | ----------- |
| [AceReason-Nemotron-7B-bf16.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-bf16.gguf) | bf16 | 15.24GB | false | 完全なBF16重み |
| [AceReason-Nemotron-7B-Q8_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q8_0.gguf) | Q8_0 | 8.10GB | false | 非常に高品質、通常不要だが利用可能な最大量子化 |
| [AceReason-Nemotron-7B-Q6_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q6_K_L.gguf) | Q6_K_L | 6.52GB | false | 埋め込みと出力重みにQ8_0を使用。非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-7B-Q6_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q6_K.gguf) | Q6_K | 6.25GB | false | 非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-7B-Q5_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q5_K_L.gguf) | Q5_K_L | 5.78GB | false | 埋め込みと出力重みにQ8_0を使用。高品質、*推奨* |
| [AceReason-Nemotron-7B-Q5_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q5_K_M.gguf) | Q5_K_M | 5.44GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-7B-Q5_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q5_K_S.gguf) | Q5_K_S | 5.32GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-7B-Q4_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_K_L.gguf) | Q4_K_L | 5.09GB | false | 埋め込みと出力重みにQ8_0を使用。良好な品質、*推奨* |
| [AceReason-Nemotron-7B-Q4_1.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_1.gguf) | Q4_1 | 4.87GB | false | レガシーフォーマット、Q4_K_Sと類似性能だがAppleシリコンでトークン/ワット改善 |
| [AceReason-Nemotron-7B-Q4_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_K_M.gguf) | Q4_K_M | 4.68GB | false | 良好な品質、ほとんどのユースケースのデフォルトサイズ、*推奨* |
| [AceReason-Nemotron-7B-Q3_K_XL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_XL.gguf) | Q3_K_XL | 4.57GB | false | 埋め込みと出力重みにQ8_0を使用。低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-7B-Q4_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_K_S.gguf) | Q4_K_S | 4.46GB | false | 品質はやや低いがスペース節約、*推奨* |
| [AceReason-Nemotron-7B-Q4_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_0.gguf) | Q4_0 | 4.44GB | false | レガシーフォーマット、ARMおよびAVX CPU推論用オンライン再パッキング提供 |
| [AceReason-Nemotron-7B-IQ4_NL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ4_NL.gguf) | IQ4_NL | 4.44GB | false | IQ4_XSと類似だがやや大きい。ARM CPU推論用オンライン再パッキング提供 |
| [AceReason-Nemotron-7B-IQ4_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ4_XS.gguf) | IQ4_XS | 4.22GB | false | 良好な品質、Q4_K_Sより小さく類似性能、*推奨* |
| [AceReason-Nemotron-7B-Q3_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_L.gguf) | Q3_K_L | 4.09GB | false | 低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-7B-Q3_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_M.gguf) | Q3_K_M | 3.81GB | false | 低品質 |
| [AceReason-Nemotron-7B-IQ3_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ3_M.gguf) | IQ3_M | 3.57GB | false | 中低品質、Q3_K_Mと比較可能な性能の新しい手法 |
| [AceReason-Nemotron-7B-Q2_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q2_K_L.gguf) | Q2_K_L | 3.55GB | false | 埋め込みと出力重みにQ8_0を使用。非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-7B-Q3_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_S.gguf) | Q3_K_S | 3.49GB | false | 低品質、非推奨 |
| [AceReason-Nemotron-7B-IQ3_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ3_XS.gguf) | IQ3_XS | 3.35GB | false | 低品質、Q3_K_Sよりやや優れた性能の新しい手法 |
| [AceReason-Nemotron-7B-IQ3_XXS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ3_XXS.gguf) | IQ3_XXS | 3.11GB | false | 低品質、Q3量子化と比較可能な性能の新しい手法 |
| [AceReason-Nemotron-7B-Q2_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q2_K.gguf) | Q2_K | 3.02GB | false | 非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-7B-IQ2_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ2_M.gguf) | IQ2_M | 2.78GB | false | 比較的低品質だが、SOTA技術を使用して驚くほど使用可能 |

## 埋め込み/出力重み

これらの量子化の一部（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化手法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0で量子化されています。

## huggingface-cliを使用したダウンロード

<details>
  <summary>クリックしてダウンロード手順を表示</summary>

まず、huggingface-cliがインストールされていることを確認してください:

pip install -U "huggingface_hub[cli]"


次に、対象の特定のファイルを指定できます:

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q4_K_M.gguf" --local-dir ./


モデルが50GBより大きい場合、複数のファイルに分割されています。それらすべてをローカルフォルダにダウンロードするには、次のコマンドを実行します:

huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q8_0/*" --local-dir ./


新しいlocal-dir（nvidia_AceReason-Nemotron-7B-Q8_0）を指定するか、すべてをその場（./）にダウンロードできます。

</details>

## ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされ、ARMおよびAVXマシンでのパフォーマンスを向上させるために一度により多くのデータをロードしていました。

しかし、現在は重みの「オンライン再パッキング」と呼ばれるものがあります。詳細は[このPR](https://github.com/ggerganov/llama.cpp/pull/9921)にあります。Q4_0を使用し、ハードウェアが重みの再パッキングの恩恵を受ける場合、自動的にオンザフライで行われます。

llama.cppビルド[b4282](https://github.com/ggerganov/llama.cpp/releases/tag/b4282)以降、Q4_0_X_Xファイルを実行できなくなり、代わりにQ4_0を使用する必要があります。

さらに、[このPR](https://github.com/ggerganov/llama.cpp/pull/10541)のおかげで、IQ4_NLを使用してやや良い品質を得ることができます。これもARM用に重みを再パッキングしますが、現時点では4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度向上をもたらします。

<details>
  <summary>クリックしてQ4_0_X_X情報を表示（非推奨）</summary>

このセクションは、Q4_0とオンライン再パッキングを使用した場合の潜在的な理論的性能向上を示すために保持しています。

<details>
  <summary>クリックしてAVX2システム（EPYC7702）でのベンチマークを表示</summary>

| モデル                          |       サイズ |     パラメータ | バックエンド    | スレッド |          テスト |                  t/s |  % (Q4_0比)  |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: |
| qwen2 3B Q4_0                  |    1.70 GiB |     3.09 B | CPU        |      64 |         pp512 |        204.03 ± 1.03 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |     3.09 B | CPU        |      64 |        pp1024 |        282.92 ± 0.19 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |     3.09 B | CPU        |      64 |        pp2048 |        259.49 ± 0.44 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |     3.09 B | CPU        |      64 |         tg128 |         39.12 ± 0.27 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |     3.09 B | CPU        |      64 |         tg256 |         39.31 ± 0.69 |          100% |
| qwen2 3B Q4_0                  |    1.70 GiB |     3.09 B | CPU        |      64 |         tg512 |         40.52 ± 0.03 |          100% |
| qwen2 3B Q4_K_M                |    1.79 GiB |     3.09 B | CPU        |      64 |         pp512 |        301.02 ± 1.74 |          147% |
| qwen2 3B Q4_K_M                |    1.79 GiB |     3.09 B | CPU        |      64 |        pp1024 |        287.23 ± 0.20 |          101% |
| qwen2 3B Q4_K_M                |    1.79 GiB |     3.09 B | CPU        |      64 |        pp2048 |        262.77 ± 1.81 |          101% |
| qwen2 3B Q4_K_M                |    1.79 GiB |     3.09 B | CPU        |      64 |         tg128 |         18.80 ± 0.99 |           48% |
| qwen2 3B Q4_K_M                |    1.79 GiB |     3.09 B | CPU        |      64 |         tg256 |         24.46 ± 3.04 |           83% |
| qwen2 3B Q4_K_M                |    1.79 GiB |     3.09 B | CPU        |      64 |         tg512 |         36.32 ± 3.59 |           90% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |     3.09 B | CPU        |      64 |         pp512 |        271.71 ± 3.53 |          133% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |     3.09 B | CPU        |      64 |        pp1024 |       279.86 ± 45.63 |          100% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |     3.09 B | CPU        |      64 |        pp2048 |        320.77 ± 5.00 |          124% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |     3.09 B | CPU        |      64 |         tg128 |         43.51 ± 0.05 |          111% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |     3.09 B | CPU        |      64 |         tg256 |         43.35 ± 0.09 |          110% |
| qwen2 3B Q4_0_8_8              |    1.69 GiB |     3.09 B | CPU        |      64 |         tg512 |         42.60 ± 0.31 |          105% |

Q4_0_8_8はプロンプト処理に良い向上をもたらし、テキスト生成にもわずかな向上をもたらします

</details>

</details>

## どのファイルを選ぶべきですか？

<details>
  <summary>詳細はこちらをクリック</summary>

Artefact2によるさまざまな性能を示すチャート付きの優れた説明が[こちら](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)にあります

最初に、実行できるモデルの大きさを把握する必要があります。これを行うには、RAMやVRAMの量を把握する必要があります。

可能な限り高速にモデルを実行したい場合は、GPUのVRAMにモデル全体を収めたいでしょう。GPUの総VRAMより1-2GB小さい量子化を選んでください。

絶対的な最高品質を求めたい場合は、システムRAMとGPUのVRAMを合計し、同様に合計より1-2GB小さい量子化を選んでください。

次に、「I-quant」または「K-quant」のどちらを使用するかを決定する必要があります。

あまり考えたくない場合は、K-quantのいずれかを選んでください。これらは「QX_K_X」形式で、Q5_K_Mなどです。

さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認できます:

[llama.cpp 機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix)

基本的に、Q4以下を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を実行している場合は、I-quantを検討する必要があります。これらは「IQX_X」形式で、IQ3_Mなどです。これらは新しく、サイズに対してより良い性能を提供します。

これらのI-quantはCPUでも使用できますが、K-quant相当よりも遅くなるため、速度と性能のトレードオフを決定する必要があります。

</details>

## クレジット

imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。

埋め込み/出力の実験にインスピレーションを与えてくれたZeroWwに感謝します。

私の仕事をスポンサーしてくれたLM Studioに感謝します。

私の仕事をサポートしたいですか？私のko-fiページをご覧ください: https://ko-fi.com/bartowski