モデル概要
モデル特徴
モデル能力
使用事例
🚀 DeepSeek-R1-0528のLlamacpp imatrix量子化モデル
このプロジェクトは、deepseek-aiによるDeepSeek-R1-0528モデルをllama.cppを用いて量子化したものです。量子化により、モデルのサイズを削減し、メモリ使用量を抑えることができます。
🚀 クイックスタート
この量子化モデルは、LM Studioやllama.cppを使って実行できます。以下の手順に従って、モデルをダウンロードして実行してみましょう。
✨ 主な機能
- 量子化によるメモリ削減:モデルのサイズを大幅に削減し、低メモリ環境でも実行可能にします。
- 高速な推論:量子化により、推論速度を向上させることができます。
- 複数の量子化形式:様々な量子化形式(Q8_0、Q6_K、Q5_K_Mなど)を提供し、ユーザーのニーズに合わせて選択できます。
📦 インストール
huggingface-cliを使ったダウンロード
まず、huggingface-cliをインストールします。
pip install -U "huggingface_hub[cli]"
次に、特定のファイルをダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/deepseek-ai_DeepSeek-R1-0528-GGUF --include "deepseek-ai_DeepSeek-R1-0528-Q4_K_M.gguf" --local-dir ./
モデルが50GB以上の場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download bartowski/deepseek-ai_DeepSeek-R1-0528-GGUF --include "deepseek-ai_DeepSeek-R1-0528-Q8_0/*" --local-dir ./
💻 使用例
プロンプト形式
<|begin▁of▁sentence|>{system_prompt}<|User|>{prompt}<|Assistant|>
モデルの選択
どのファイルを選ぶべきか迷った場合は、以下のヒントを参考にしてください。
詳細を表示するにはここをクリック
Artefact2による[この記事](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)に、様々なパフォーマンスを示すグラフが掲載されています。まず、実行できるモデルのサイズを決める必要があります。これには、持っているRAMやVRAMの容量を調べる必要があります。
モデルをできるだけ高速に実行したい場合は、GPUのVRAMに全体を収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選びましょう。
最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選びましょう。
次に、「I-quant」または「K-quant」を使うかを決める必要があります。
あまり考えたくない場合は、K-quantのいずれかを選びましょう。これらは「QX_K_X」の形式で、例えばQ5_K_Mのようになります。
もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてみてください。 llama.cpp feature matrix
基本的に、Q4以下を目指していて、cuBLAS(Nvidia)またはrocBLAS(AMD)を使用している場合は、I-quantを検討するべきです。これらはIQX_Xの形式で、例えばIQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。
これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。
📚 詳細ドキュメント
ダウンロード可能なファイル一覧
ファイル名 | 量子化タイプ | ファイルサイズ | 分割 | 説明 |
---|---|---|---|---|
DeepSeek-R1-0528-Q8_0.gguf | Q8_0 | 713.29GB | true | 非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化です。 |
DeepSeek-R1-0528-Q6_K.gguf | Q6_K | 552.45GB | true | 非常に高品質で、ほぼ完璧で、推奨です。 |
DeepSeek-R1-0528-Q5_K_M.gguf | Q5_K_M | 478.34GB | true | 高品質で、推奨です。 |
DeepSeek-R1-0528-Q5_K_S.gguf | Q5_K_S | 463.03GB | true | 高品質で、推奨です。 |
DeepSeek-R1-0528-Q4_1.gguf | Q4_1 | 421.04GB | true | レガシー形式で、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上しています。 |
DeepSeek-R1-0528-Q4_K_M.gguf | Q4_K_M | 409.23GB | true | 良い品質で、ほとんどのユースケースでのデフォルトサイズで、推奨です。 |
DeepSeek-R1-0528-Q4_K_S.gguf | Q4_K_S | 394.15GB | true | 品質が少し低いですが、より多くのスペースを節約でき、推奨です。 |
DeepSeek-R1-0528-Q4_0.gguf | Q4_0 | 386.42GB | true | レガシー形式で、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。 |
DeepSeek-R1-0528-IQ4_NL.gguf | IQ4_NL | 380.48GB | true | IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供します。 |
DeepSeek-R1-0528-IQ4_XS.gguf | IQ4_XS | 359.98GB | true | まともな品質で、Q4_K_Sよりも小さく、同様のパフォーマンスで、推奨です。 |
DeepSeek-R1-0528-Q3_K_XL.gguf | Q3_K_XL | 320.52GB | true | 埋め込みと出力の重みにQ8_0を使用します。品質は低いですが、使用可能で、低RAM環境に適しています。 |
DeepSeek-R1-0528-Q3_K_L.gguf | Q3_K_L | 319.71GB | true | 品質は低いですが、使用可能で、低RAM環境に適しています。 |
DeepSeek-R1-0528-Q3_K_M.gguf | Q3_K_M | 307.93GB | true | 低品質です。 |
DeepSeek-R1-0528-IQ3_M.gguf | IQ3_M | 307.88GB | true | 中程度の低品質で、Q3_K_Mと同等のパフォーマンスを持つ新しい方法です。 |
DeepSeek-R1-0528-Q3_K_S.gguf | Q3_K_S | 293.35GB | true | 低品質で、推奨しません。 |
DeepSeek-R1-0528-IQ3_XS.gguf | IQ3_XS | 277.15GB | true | 品質は低いですが、パフォーマンスはまともで、Q3_K_Sよりも少し良いです。 |
DeepSeek-R1-0528-IQ3_XXS.gguf | IQ3_XXS | 267.63GB | true | 品質は低いですが、パフォーマンスはまともで、Q3量子化と同等です。 |
DeepSeek-R1-0528-Q2_K_L.gguf | Q2_K_L | 238.74GB | true | 埋め込みと出力の重みにQ8_0を使用します。非常に低品質ですが、意外と使用可能です。 |
DeepSeek-R1-0528-Q2_K.gguf | Q2_K | 237.83GB | true | 非常に低品質ですが、意外と使用可能です。 |
DeepSeek-R1-0528-IQ2_M.gguf | IQ2_M | 215.04GB | true | 比較的低品質ですが、SOTA技術を使って意外と使用可能です。 |
DeepSeek-R1-0528-IQ2_S.gguf | IQ2_S | 189.63GB | true | 低品質ですが、SOTA技術を使って使用可能です。 |
DeepSeek-R1-0528-IQ2_XS.gguf | IQ2_XS | 188.41GB | true | 低品質ですが、SOTA技術を使って使用可能です。 |
DeepSeek-R1-0528-IQ2_XXS.gguf | IQ2_XXS | 164.06GB | true | 非常に低品質ですが、SOTA技術を使って使用可能です。 |
DeepSeek-R1-0528-IQ1_M.gguf | IQ1_M | 147.45GB | true | 非常に低品質で、推奨しません。 |
埋め込み/出力の重み
一部の量子化モデル(Q3_K_XL、Q4_K_Lなど)は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルト値ではなくQ8_0に量子化されています。
ARM/AVX情報
以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。
しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPRを参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。
llama.cppビルドb4282以降は、Q4_0_X_Xファイルを実行できなくなり、代わりにQ4_0を使用する必要があります。
さらに、少し良い品質を得たい場合は、このPRにより、ARM用に重みを再パッキングするIQ4_NLを使用できます。ただし、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。
(非推奨)Q4_0_X_X情報を表示するにはここをクリック
このセクションは、オンライン再パッキングを使用したQ4_0による潜在的な理論上のパフォーマンス向上を示すために残しています。AVX2システム(EPYC7702)でのベンチマークを表示するにはここをクリック
| モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | トークン/秒 | Q4_0との比較 | | ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成にも小さな改善をもたらします。
🔧 技術詳細
- 量子化方法:llama.cppのリリース[a href="https://github.com/ggerganov/llama.cpp/releases/tag/b5524">b5524を使用して量子化を行っています。
- 訓練データ:ここのデータセットを使用してimatrixオプションで量子化を行っています。
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。
クレジット
- kalomazeとDampfには、imatrixキャリブレーションデータセットの作成に協力してくれたことに感謝します。
- ZeroWwには、埋め込み/出力の実験のインスピレーションを与えてくれたことに感謝します。
- LM Studioには、このプロジェクトの支援をしてくれたことに感謝します。
このプロジェクトをサポートしたい場合は、こちらのko-fiページを訪問してください。



