Nvidia AceReason Nemotron 7B GGUF
AceReason-Nemotron-7B は Nemotron アーキテクチャに基づく 7B パラメータ規模の大規模言語モデルで、さまざまなハードウェア要件に対応するために複数の量子化バージョンを提供します。
ダウンロード数 209
リリース時間 : 5/26/2025
モデル概要
このモデルは主にテキスト生成と推論タスクに使用され、パフォーマンスとリソース使用を最適化するために複数の量子化オプションをサポートしています。
モデル特徴
複数の量子化オプション
BF16 から Q2_K までの複数の量子化バージョンを提供し、さまざまなハードウェアとパフォーマンス要件に対応します。
高性能推論
埋め込みと出力重みの Q8_0 量子化をサポートし、推論性能を向上させます。
ハードウェア最適化
ARM および AVX マシンのオンライン再パッケージ機能をサポートし、メモリ使用とパフォーマンスを最適化します。
推奨量子化バージョン
複数の推奨量子化バージョン(Q6_K_L、Q5_K_M など)を提供し、パフォーマンスとリソース使用のバランスを取ります。
モデル能力
テキスト生成
推論タスク
多言語サポート
使用事例
テキスト生成
コンテンツ作成
高品質の記事、ストーリー、またはその他のテキストコンテンツを生成します。
対話システム
インテリジェントなチャットボットの構築に使用されます。
推論タスク
論理的推論
複雑な論理と推論の問題を解決します。
## ファイル(ブランチ全体ではなく)を以下からダウンロードしてください:
| ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
| -------- | ---------- | --------- | ----- | ----------- |
| [AceReason-Nemotron-7B-bf16.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-bf16.gguf) | bf16 | 15.24GB | false | 完全なBF16重み |
| [AceReason-Nemotron-7B-Q8_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q8_0.gguf) | Q8_0 | 8.10GB | false | 非常に高品質、通常不要だが利用可能な最大量子化 |
| [AceReason-Nemotron-7B-Q6_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q6_K_L.gguf) | Q6_K_L | 6.52GB | false | 埋め込みと出力重みにQ8_0を使用。非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-7B-Q6_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q6_K.gguf) | Q6_K | 6.25GB | false | 非常に高品質、ほぼ完璧、*推奨* |
| [AceReason-Nemotron-7B-Q5_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q5_K_L.gguf) | Q5_K_L | 5.78GB | false | 埋め込みと出力重みにQ8_0を使用。高品質、*推奨* |
| [AceReason-Nemotron-7B-Q5_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q5_K_M.gguf) | Q5_K_M | 5.44GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-7B-Q5_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q5_K_S.gguf) | Q5_K_S | 5.32GB | false | 高品質、*推奨* |
| [AceReason-Nemotron-7B-Q4_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_K_L.gguf) | Q4_K_L | 5.09GB | false | 埋め込みと出力重みにQ8_0を使用。良好な品質、*推奨* |
| [AceReason-Nemotron-7B-Q4_1.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_1.gguf) | Q4_1 | 4.87GB | false | レガシーフォーマット、Q4_K_Sと類似性能だがAppleシリコンでトークン/ワット改善 |
| [AceReason-Nemotron-7B-Q4_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_K_M.gguf) | Q4_K_M | 4.68GB | false | 良好な品質、ほとんどのユースケースのデフォルトサイズ、*推奨* |
| [AceReason-Nemotron-7B-Q3_K_XL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_XL.gguf) | Q3_K_XL | 4.57GB | false | 埋め込みと出力重みにQ8_0を使用。低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-7B-Q4_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_K_S.gguf) | Q4_K_S | 4.46GB | false | 品質はやや低いがスペース節約、*推奨* |
| [AceReason-Nemotron-7B-Q4_0.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q4_0.gguf) | Q4_0 | 4.44GB | false | レガシーフォーマット、ARMおよびAVX CPU推論用オンライン再パッキング提供 |
| [AceReason-Nemotron-7B-IQ4_NL.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ4_NL.gguf) | IQ4_NL | 4.44GB | false | IQ4_XSと類似だがやや大きい。ARM CPU推論用オンライン再パッキング提供 |
| [AceReason-Nemotron-7B-IQ4_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ4_XS.gguf) | IQ4_XS | 4.22GB | false | 良好な品質、Q4_K_Sより小さく類似性能、*推奨* |
| [AceReason-Nemotron-7B-Q3_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_L.gguf) | Q3_K_L | 4.09GB | false | 低品質だが使用可能、低RAM環境向け |
| [AceReason-Nemotron-7B-Q3_K_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_M.gguf) | Q3_K_M | 3.81GB | false | 低品質 |
| [AceReason-Nemotron-7B-IQ3_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ3_M.gguf) | IQ3_M | 3.57GB | false | 中低品質、Q3_K_Mと比較可能な性能の新しい手法 |
| [AceReason-Nemotron-7B-Q2_K_L.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q2_K_L.gguf) | Q2_K_L | 3.55GB | false | 埋め込みと出力重みにQ8_0を使用。非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-7B-Q3_K_S.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q3_K_S.gguf) | Q3_K_S | 3.49GB | false | 低品質、非推奨 |
| [AceReason-Nemotron-7B-IQ3_XS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ3_XS.gguf) | IQ3_XS | 3.35GB | false | 低品質、Q3_K_Sよりやや優れた性能の新しい手法 |
| [AceReason-Nemotron-7B-IQ3_XXS.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ3_XXS.gguf) | IQ3_XXS | 3.11GB | false | 低品質、Q3量子化と比較可能な性能の新しい手法 |
| [AceReason-Nemotron-7B-Q2_K.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-Q2_K.gguf) | Q2_K | 3.02GB | false | 非常に低品質だが驚くほど使用可能 |
| [AceReason-Nemotron-7B-IQ2_M.gguf](https://huggingface.co/bartowski/nvidia_AceReason-Nemotron-7B-GGUF/blob/main/nvidia_AceReason-Nemotron-7B-IQ2_M.gguf) | IQ2_M | 2.78GB | false | 比較的低品質だが、SOTA技術を使用して驚くほど使用可能 |
## 埋め込み/出力重み
これらの量子化の一部(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化手法で、埋め込みと出力重みが通常のデフォルトではなくQ8_0で量子化されています。
## huggingface-cliを使用したダウンロード
<details>
<summary>クリックしてダウンロード手順を表示</summary>
まず、huggingface-cliがインストールされていることを確認してください:
pip install -U "huggingface_hub[cli]"
次に、対象の特定のファイルを指定できます:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q4_K_M.gguf" --local-dir ./
モデルが50GBより大きい場合、複数のファイルに分割されています。それらすべてをローカルフォルダにダウンロードするには、次のコマンドを実行します:
huggingface-cli download bartowski/nvidia_AceReason-Nemotron-7B-GGUF --include "nvidia_AceReason-Nemotron-7B-Q8_0/*" --local-dir ./
新しいlocal-dir(nvidia_AceReason-Nemotron-7B-Q8_0)を指定するか、すべてをその場(./)にダウンロードできます。
</details>
## ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みはメモリ内でインターリーブされ、ARMおよびAVXマシンでのパフォーマンスを向上させるために一度により多くのデータをロードしていました。
しかし、現在は重みの「オンライン再パッキング」と呼ばれるものがあります。詳細は[このPR](https://github.com/ggerganov/llama.cpp/pull/9921)にあります。Q4_0を使用し、ハードウェアが重みの再パッキングの恩恵を受ける場合、自動的にオンザフライで行われます。
llama.cppビルド[b4282](https://github.com/ggerganov/llama.cpp/releases/tag/b4282)以降、Q4_0_X_Xファイルを実行できなくなり、代わりにQ4_0を使用する必要があります。
さらに、[このPR](https://github.com/ggerganov/llama.cpp/pull/10541)のおかげで、IQ4_NLを使用してやや良い品質を得ることができます。これもARM用に重みを再パッキングしますが、現時点では4_4のみです。ロード時間は遅くなる可能性がありますが、全体的な速度向上をもたらします。
<details>
<summary>クリックしてQ4_0_X_X情報を表示(非推奨)</summary>
このセクションは、Q4_0とオンライン再パッキングを使用した場合の潜在的な理論的性能向上を示すために保持しています。
<details>
<summary>クリックしてAVX2システム(EPYC7702)でのベンチマークを表示</summary>
| モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | t/s | % (Q4_0比) |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% |
| qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% |
| qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% |
| qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |
Q4_0_8_8はプロンプト処理に良い向上をもたらし、テキスト生成にもわずかな向上をもたらします
</details>
</details>
## どのファイルを選ぶべきですか?
<details>
<summary>詳細はこちらをクリック</summary>
Artefact2によるさまざまな性能を示すチャート付きの優れた説明が[こちら](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)にあります
最初に、実行できるモデルの大きさを把握する必要があります。これを行うには、RAMやVRAMの量を把握する必要があります。
可能な限り高速にモデルを実行したい場合は、GPUのVRAMにモデル全体を収めたいでしょう。GPUの総VRAMより1-2GB小さい量子化を選んでください。
絶対的な最高品質を求めたい場合は、システムRAMとGPUのVRAMを合計し、同様に合計より1-2GB小さい量子化を選んでください。
次に、「I-quant」または「K-quant」のどちらを使用するかを決定する必要があります。
あまり考えたくない場合は、K-quantのいずれかを選んでください。これらは「QX_K_X」形式で、Q5_K_Mなどです。
さらに詳しく知りたい場合は、この非常に便利な機能チャートを確認できます:
[llama.cpp 機能マトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix)
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を実行している場合は、I-quantを検討する必要があります。これらは「IQX_X」形式で、IQ3_Mなどです。これらは新しく、サイズに対してより良い性能を提供します。
これらのI-quantはCPUでも使用できますが、K-quant相当よりも遅くなるため、速度と性能のトレードオフを決定する必要があります。
</details>
## クレジット
imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。
埋め込み/出力の実験にインスピレーションを与えてくれたZeroWwに感謝します。
私の仕事をスポンサーしてくれたLM Studioに感謝します。
私の仕事をサポートしたいですか?私のko-fiページをご覧ください: https://ko-fi.com/bartowski
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98