DeepSeek-R1-0528オープンソース大規模言語モデル - さまざまなハードウェアでの効率的な実行をサポート

ホーム

Deepseek Ai DeepSeek R1 0528 GGUF

bartowskiによって開発

DeepSeek-R1-0528は大型言語モデルで、量子化処理を行ってさまざまなハードウェアでの実行効率を最適化しています。

大規模言語モデルオープンソースライセンス:MIT #多精度量子化 #大規模言語モデル #高性能推論

ダウンロード数 2,703

リリース時間 : 5/29/2025

モデル概要

このモデルはdeepseek-aiのDeepSeek-R1-0528モデルの量子化バージョンで、llama.cppを使用して量子化処理を行い、さまざまなハードウェア要件に対応するために複数の量子化タイプをサポートしています。

モデル特徴

複数の量子化オプション

Q8_0からIQ1_Mまでの複数の量子化タイプを提供し、さまざまなハードウェアと性能要件に対応します。

オンラインでの重み再パッケージング

ARMおよびAVX CPU推論用のオンラインでの重み再パッケージングをサポートし、性能を向上させます。

高品質量子化

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は標準的な量子化方法を採用し、埋め込みと出力の重みをQ8_0に量子化して品質を向上させます。

モデル能力

テキスト生成

言語理解

複数の量子化タイプをサポート

使用事例

自然言語処理

テキスト生成

高品質のテキストコンテンツの生成に使用できます。

言語理解

自然言語テキストの理解と処理に使用できます。

🚀 DeepSeek-R1-0528のLlamacpp imatrix量子化モデル

このプロジェクトは、deepseek-aiによるDeepSeek-R1-0528モデルをllama.cppを用いて量子化したものです。量子化により、モデルのサイズを削減し、メモリ使用量を抑えることができます。

🚀 クイックスタート

この量子化モデルは、LM Studioやllama.cppを使って実行できます。以下の手順に従って、モデルをダウンロードして実行してみましょう。

✨ 主な機能

量子化によるメモリ削減：モデルのサイズを大幅に削減し、低メモリ環境でも実行可能にします。
高速な推論：量子化により、推論速度を向上させることができます。
複数の量子化形式：様々な量子化形式（Q8_0、Q6_K、Q5_K_Mなど）を提供し、ユーザーのニーズに合わせて選択できます。

📦 インストール

huggingface-cliを使ったダウンロード

まず、huggingface-cliをインストールします。

pip install -U "huggingface_hub[cli]"

次に、特定のファイルをダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/deepseek-ai_DeepSeek-R1-0528-GGUF --include "deepseek-ai_DeepSeek-R1-0528-Q4_K_M.gguf" --local-dir ./

モデルが50GB以上の場合は、複数のファイルに分割されています。これらをすべてローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/deepseek-ai_DeepSeek-R1-0528-GGUF --include "deepseek-ai_DeepSeek-R1-0528-Q8_0/*" --local-dir ./

💻 使用例

プロンプト形式

<｜begin▁of▁sentence｜>{system_prompt}<｜User｜>{prompt}<｜Assistant｜>

モデルの選択

どのファイルを選ぶべきか迷った場合は、以下のヒントを参考にしてください。

詳細を表示するにはここをクリック

Artefact2による[この記事](https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9)に、様々なパフォーマンスを示すグラフが掲載されています。

まず、実行できるモデルのサイズを決める必要があります。これには、持っているRAMやVRAMの容量を調べる必要があります。

モデルをできるだけ高速に実行したい場合は、GPUのVRAMに全体を収めることが望ましいです。GPUの総VRAMよりも1 - 2GB小さいファイルサイズの量子化モデルを選びましょう。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化モデルを選びましょう。

次に、「I-quant」または「K-quant」を使うかを決める必要があります。

あまり考えたくない場合は、K-quantのいずれかを選びましょう。これらは「QX_K_X」の形式で、例えばQ5_K_Mのようになります。

もっと詳細に調べたい場合は、この非常に便利な機能チャートをチェックしてみてください。 llama.cpp feature matrix

基本的に、Q4以下を目指していて、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I-quantを検討するべきです。これらはIQX_Xの形式で、例えばIQ3_Mのようになります。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI-quantはCPUでも使用できますが、同等のK-quantよりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。

📚 詳細ドキュメント

ダウンロード可能なファイル一覧

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
DeepSeek-R1-0528-Q8_0.gguf	Q8_0	713.29GB	true	非常に高品質で、一般的には必要ありませんが、利用可能な最大の量子化です。
DeepSeek-R1-0528-Q6_K.gguf	Q6_K	552.45GB	true	非常に高品質で、ほぼ完璧で、推奨です。
DeepSeek-R1-0528-Q5_K_M.gguf	Q5_K_M	478.34GB	true	高品質で、推奨です。
DeepSeek-R1-0528-Q5_K_S.gguf	Q5_K_S	463.03GB	true	高品質で、推奨です。
DeepSeek-R1-0528-Q4_1.gguf	Q4_1	421.04GB	true	レガシー形式で、Q4_K_Sと同様のパフォーマンスですが、Appleシリコンでのトークン/ワットが向上しています。
DeepSeek-R1-0528-Q4_K_M.gguf	Q4_K_M	409.23GB	true	良い品質で、ほとんどのユースケースでのデフォルトサイズで、推奨です。
DeepSeek-R1-0528-Q4_K_S.gguf	Q4_K_S	394.15GB	true	品質が少し低いですが、より多くのスペースを節約でき、推奨です。
DeepSeek-R1-0528-Q4_0.gguf	Q4_0	386.42GB	true	レガシー形式で、ARMおよびAVX CPU推論用のオンライン再パッキングを提供します。
DeepSeek-R1-0528-IQ4_NL.gguf	IQ4_NL	380.48GB	true	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論用のオンライン再パッキングを提供します。
DeepSeek-R1-0528-IQ4_XS.gguf	IQ4_XS	359.98GB	true	まともな品質で、Q4_K_Sよりも小さく、同様のパフォーマンスで、推奨です。
DeepSeek-R1-0528-Q3_K_XL.gguf	Q3_K_XL	320.52GB	true	埋め込みと出力の重みにQ8_0を使用します。品質は低いですが、使用可能で、低RAM環境に適しています。
DeepSeek-R1-0528-Q3_K_L.gguf	Q3_K_L	319.71GB	true	品質は低いですが、使用可能で、低RAM環境に適しています。
DeepSeek-R1-0528-Q3_K_M.gguf	Q3_K_M	307.93GB	true	低品質です。
DeepSeek-R1-0528-IQ3_M.gguf	IQ3_M	307.88GB	true	中程度の低品質で、Q3_K_Mと同等のパフォーマンスを持つ新しい方法です。
DeepSeek-R1-0528-Q3_K_S.gguf	Q3_K_S	293.35GB	true	低品質で、推奨しません。
DeepSeek-R1-0528-IQ3_XS.gguf	IQ3_XS	277.15GB	true	品質は低いですが、パフォーマンスはまともで、Q3_K_Sよりも少し良いです。
DeepSeek-R1-0528-IQ3_XXS.gguf	IQ3_XXS	267.63GB	true	品質は低いですが、パフォーマンスはまともで、Q3量子化と同等です。
DeepSeek-R1-0528-Q2_K_L.gguf	Q2_K_L	238.74GB	true	埋め込みと出力の重みにQ8_0を使用します。非常に低品質ですが、意外と使用可能です。
DeepSeek-R1-0528-Q2_K.gguf	Q2_K	237.83GB	true	非常に低品質ですが、意外と使用可能です。
DeepSeek-R1-0528-IQ2_M.gguf	IQ2_M	215.04GB	true	比較的低品質ですが、SOTA技術を使って意外と使用可能です。
DeepSeek-R1-0528-IQ2_S.gguf	IQ2_S	189.63GB	true	低品質ですが、SOTA技術を使って使用可能です。
DeepSeek-R1-0528-IQ2_XS.gguf	IQ2_XS	188.41GB	true	低品質ですが、SOTA技術を使って使用可能です。
DeepSeek-R1-0528-IQ2_XXS.gguf	IQ2_XXS	164.06GB	true	非常に低品質ですが、SOTA技術を使って使用可能です。
DeepSeek-R1-0528-IQ1_M.gguf	IQ1_M	147.45GB	true	非常に低品質で、推奨しません。

埋め込み/出力の重み

一部の量子化モデル（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力の重みが通常のデフォルト値ではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、これらの重みをメモリ内でインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。

しかし、現在は重みの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPRを参照してください。Q4_0を使用し、ハードウェアが重みの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルドb4282以降は、Q4_0_X_Xファイルを実行できなくなり、代わりにQ4_0を使用する必要があります。

さらに、少し良い品質を得たい場合は、このPRにより、ARM用に重みを再パッキングするIQ4_NLを使用できます。ただし、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

（非推奨）Q4_0_X_X情報を表示するにはここをクリック

このセクションは、オンライン再パッキングを使用したQ4_0による潜在的な理論上のパフォーマンス向上を示すために残しています。

AVX2システム（EPYC7702）でのベンチマークを表示するにはここをクリック

| モデル | サイズ | パラメータ | バックエンド | スレッド | テスト | トークン/秒 | Q4_0との比較 | | ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |

Q4_0_8_8は、プロンプト処理に大きな改善をもたらし、テキスト生成にも小さな改善をもたらします。

🔧 技術詳細

量子化方法：llama.cppのリリース[a href="https://github.com/ggerganov/llama.cpp/releases/tag/b5524">b5524を使用して量子化を行っています。
訓練データ：ここのデータセットを使用してimatrixオプションで量子化を行っています。