Nvidia AceReason Nemotron 14B GGUF
AceReason-Nemotron-14Bは14Bパラメータ規模の大規模言語モデルで、様々なハードウェア要件に対応する複数の量子化バージョンを提供します。
ダウンロード数 1,772
リリース時間 : 5/23/2025
モデル概要
このモデルは高性能な大規模言語モデルで、様々な自然言語処理タスクに適しており、BF16から極低ビット量子化までの複数のバージョンを提供し、異なる計算環境のニーズに対応します。
モデル特徴
多様な量子化オプション
BF16から極低ビット量子化までの複数のバージョンを提供し、異なるハードウェア環境と性能要件に対応します。
高品質な推論
Q6_K_LやQ5_K_Mなどの量子化バージョンを使用することを推奨し、高品質を維持しながらリソース消費を削減できます。
ハードウェア最適化
ARMおよびAVXマシンのオンライン再パッケージ機能をサポートし、特定のハードウェア上での性能を最適化します。
新しい量子化技術
I-quantなどの新しい量子化手法を採用し、同じサイズでより優れた性能を提供します。
モデル能力
テキスト生成
自然言語理解
推論タスク処理
マルチターン対話
使用事例
汎用自然言語処理
テキスト生成
高品質で一貫性のあるテキストコンテンツを生成
量子化レベルによって生成品質が異なります
質問応答システム
知識質問応答と対話システムを構築
複雑な推論問題を処理できます
リソース制約環境でのアプリケーション
モバイルデバイス展開
低ビット量子化バージョンを使用してモバイルデバイスで実行
限られたリソース下で使用可能な性能を維持
## ファイル(ブランチ全体ではなく)を以下からダウンロード:
| ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
| -------- | ---------- | --------- | ----- | ----------- |
| [AceReason-Nemotron-14B-bf16.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-bf16.gguf) | bf16 | 29.55GB | false | 完全なBF16重み |
| [AceReason-Nemotron-14B-Q8_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q8_0.gguf) | Q8_0 | 15.70GB | false | 最高品質、通常不要だが利用可能な最大量子化 |
| [AceReason-Nemotron-14B-Q6_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q6_K_L.gguf) | Q6_K_L | 12.50GB | false | 埋め込みと出力重みにQ8_0を使用。非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-14B-Q6_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q6_K.gguf) | Q6_K | 12.12GB | false | 非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-14B-Q5_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_L.gguf) | Q5_K_L | 10.99GB | false | 埋め込みと出力重みにQ8_0を使用。高品質、*推奨* |
| [AceReason-Nemotron-14B-Q5_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_M.gguf) | Q5_K_M | 10.51GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-14B-Q5_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q5_K_S.gguf) | Q5_K_S | 10.27GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-14B-Q4_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_L.gguf) | Q4_K_L | 9.57GB | false | 埋め込みと出力重みにQ8_0を使用。良好な品質、*推奨* |
| [AceReason-Nemotron-14B-Q4_1.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_1.gguf) | Q4_1 | 9.39GB | false | レガシー形式、Q4_K_Sと類似性能だがAppleシリコンでトークン/ワット改善 |
| [AceReason-Nemotron-14B-Q4_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf) | Q4_K_M | 8.99GB | false | 良好な品質、ほとんどのユースケースでデフォルトサイズ、*推奨* |
| [AceReason-Nemotron-14B-Q3_K_XL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_XL.gguf) | Q3_K_XL | 8.61GB | false | 埋め込みと出力重みにQ8_0を使用。低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-14B-Q4_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_K_S.gguf) | Q4_K_S | 8.57GB | false | 品質はやや低いがスペース節約、*推奨* |
| [AceReason-Nemotron-14B-IQ4_NL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ4_NL.gguf) | IQ4_NL | 8.55GB | false | IQ4_XSと類似だがやや大きい。ARM CPU推論用オンライン再パッキング可能 |
| [AceReason-Nemotron-14B-Q4_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q4_0.gguf) | Q4_0 | 8.54GB | false | レガシー形式、ARM/AVX CPU推論用オンライン再パッキング可能 |
| [AceReason-Nemotron-14B-IQ4_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ4_XS.gguf) | IQ4_XS | 8.12GB | false | 良好な品質、Q4_K_Sより小型で類似性能、*推奨* |
| [AceReason-Nemotron-14B-Q3_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_L.gguf) | Q3_K_L | 7.92GB | false | 低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-14B-Q3_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_M.gguf) | Q3_K_M | 7.34GB | false | 低品質 |
| [AceReason-Nemotron-14B-IQ3_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_M.gguf) | IQ3_M | 6.92GB | false | 中低品質、Q3_K_Mに匹敵する性能の新しい手法 |
| [AceReason-Nemotron-14B-Q3_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q3_K_S.gguf) | Q3_K_S | 6.66GB | false | 低品質、非推奨 |
| [AceReason-Nemotron-14B-Q2_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q2_K_L.gguf) | Q2_K_L | 6.53GB | false | 埋め込みと出力重みにQ8_0を使用。非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-14B-IQ3_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_XS.gguf) | IQ3_XS | 6.38GB | false | 低品質、新しい手法、Q3_K_Sよりやや優れた性能 |
| [AceReason-Nemotron-14B-IQ3_XXS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ3_XXS.gguf) | IQ3_XXS | 5.95GB | false | 低品質、新しい手法、Q3量子化に匹敵する性能 |
| [AceReason-Nemotron-14B-Q2_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-Q2_K.gguf) | Q2_K | 5.77GB | false | 非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-14B-IQ2_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_M.gguf) | IQ2_M | 5.36GB | false | 比較的低品質、SOTA技術で驚くほど使用可能 |
| [AceReason-Nemotron-14B-IQ2_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_S.gguf) | IQ2_S | 5.00GB | false | 低品質、SOTA技術で使用可能 |
| [AceReason-Nemotron-14B-IQ2_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-14B-GGUF/blob/main/nvidia_AceReason-Nemotron-14B-IQ2_XS.gguf) | IQ2_XS | 4.70GB | false | 低品質、SOTA技術で使用可能 |
## 埋め込み/出力重み
一部の量子化(Q3_K_XL、Q4_K_Lなど)は標準的な量子化手法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0で量子化されています。
## huggingface-cliを使用したダウンロード
<details>
<summary>クリックしてダウンロード手順を表示</summary>
まず、huggingface-cliがインストールされていることを確認してください:
pip install -U "huggingface_hub[cli]"
次に、対象のファイルを指定できます:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q4_K_M.gguf" --local-dir ./
モデルが50GBより大きい場合、複数のファイルに分割されています。それらをすべてローカルフォルダにダウンロードするには、以下を実行します:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-14B-GGUF --include "nvidia_AceReason-Nemotron-14B-Q8_0/*" --local-dir ./
新しいlocal-dir(nvidia_AceReason-Nemotron-14B-Q8_0)を指定するか、すべてをその場(./)にダウンロードできます。
</details>
## ARM/AVX情報
以前はQ4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされ、ARMおよびAVXマシンでのパフォーマンスを向上させるために一度により多くのデータをロードしていました。
しかし現在は、重みの「オンライン再パッキング」と呼ばれる機能があります。詳細は[このPR](https://github.com/ggerganov/llama.cpp/pull/9921)をご覧ください。Q4_0を使用し、ハードウェアが重みの再パッキングの恩恵を受ける場合、自動的にオンザフライで行われます。
llama.cppビルド[b4282](https://github.com/ggerganov/llama.cpp/releases/tag/b4282)以降、Q4_0_X_Xファイルを実行できなくなり、代わりにQ4_0を使用する必要があります。
さらに、[このPR](https://github.com/ggerganov/llama.cpp/pull/10541)のおかげで、IQ4_NLを使用すると、ARM向けに重みを再パッキングし、4_4のみですが、わずかに品質を向上させることができます。ロード時間は遅くなる可能性がありますが、全体的な速度向上につながります。
<details>
<summary>クリックしてQ4_0_X_X情報を表示(非推奨)</summary>
Q4_0とオンライン再パッキングを使用した場合の潜在的な理論的性能向上を示すために、このセクションを保持しています。
<details>
<summary>クリックしてAVX2システム(EPYC7702)でのベンチマークを表示</summary>
| モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | % (vs Q4_0) |
| ------------------------------ | -----------: | ------------: | ---------- | -------: | -------------: | -------------------: |-------------: |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8はプロンプト処理に良い向上をもたらし、テキスト生成にもわずかな向上をもたらします
</details>
</details>
## どのファイルを選ぶべきか?
<details>
<summary>詳細はこちら</summary>
Artefact2によるさまざまな性能を示すチャートを含む素晴らしい説明が[こちら](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)にあります。
最初に、実行できるモデルのサイズを把握する必要があります。これを行うには、RAMやVRAMの量を把握する必要があります。
モデルを可能な限り高速に実行したい場合は、GPUのVRAM全体にモデルを収めたいでしょう。GPUの総VRAMより1-2GB小さい量子化を選択してください。
絶対的な最高品質を求めている場合は、システムRAMとGPUのVRAMを合計し、同様に合計より1-2GB小さい量子化を選択してください。
次に、「I-quant」または「K-quant」のどちらを使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選択してください。これらは「QX_K_X」形式で、例えばQ5_K_Mなどです。
さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認できます:
[llama.cpp 機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix)
基本的に、Q4未満を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を実行している場合は、I-quantを検討してください。これらは「IQX_X」形式で、例えばIQ3_Mなどです。これらは新しく、サイズに対してより優れた性能を提供します。
これらのI-quantはCPUでも使用できますが、K-quant相当よりも遅くなるため、速度と性能のトレードオフを決定する必要があります。
</details>
## クレジット
imatrixキャリブレーションデータセット作成の支援をしてくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験にインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事を支援してくれたLM Studioに感謝します。
私の仕事を支援したいですか?私のko-fiページをご覧ください: https://ko-fi.com/bartowski
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98