🚀 DeepSeek-V2-Chat-GGUF
DeepSeek-V2-Chat-GGUFは、DeepSeek-V2-Chatを量子化したモデルです。llama.cppを使用して量子化されており、様々な量子化形式で利用できます。

https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat から量子化されています。
量子化にはllama.cpp b3026 を使用しています。llama.cppのビルドが頻繁にリリースされるため、これは時間とともに変更される可能性があります。
以下のメタデータKVオーバーライドを設定してください。
🚀 クイックスタート
ダウンロード方法
bf16のダウンロード
- 関連するディレクトリを見つけます。
- すべてのファイルをダウンロードします。
- merge.pyを実行します。
- マージされたGGUFが表示されます。
量子化モデルのダウンロード
- 関連するディレクトリを見つけます。
- すべてのファイルをダウンロードします。
- 最初の分割ファイルを指定します(ほとんどのプログラムは自動的にすべての分割ファイルを読み込むはずです)。
llama.cppでの実行方法
コマンドラインチャットモード(チャット補完)での起動
main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)
llama.cppのOpenAI互換サーバーを使用する場合
server \
-m DeepSeek-V2-Chat.{quant}.gguf \
-c {context_length} \
(--color [推奨: サポートされているターミナルでのカラー出力]) \
(-i [注意: インタラクティブモード]) \
(--mlock [注意: スワップの使用を避ける]) \
(--verbose) \
(--log-disable [注意: ファイルへのログ記録を無効にする、本番環境で役立つ場合があります]) \
(--metrics [注意: Prometheus互換の監視エンドポイント]) \
(--api-key [文字列]) \
(--port [整数]) \
(--flash-attn [注意: サポートされているGPUに完全にオフロードする必要があります])
重要度行列の作成
imatrix \
-m DeepSeek-V2-Chat.{quant}.gguf \
-f groups_merged.txt \
--verbosity [0, 1, 2] \
-ngl {GPUオフロード; CUDAでビルドする必要があります} \
--ofreq {推奨: 1}
量子化モデルの作成
quantize \
DeepSeek-V2-Chat.bf16.gguf \
DeepSeek-V2-Chat.{quant}.gguf \
{quant} \
(--imatrix [ファイル])
⚠️ 重要提示
iMatrix量子化モデルは、GPUに完全にオフロードできる場合のみ使用してください。そうでない場合、速度が低下する可能性があります。
💻 使用例
基本的な使用法
コマンドラインチャットモードでの起動方法は以下の通りです。
main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)
高度な使用法
llama.cppのOpenAI互換サーバーを使用する場合は、以下のコマンドを実行します。
server \
-m DeepSeek-V2-Chat.{quant}.gguf \
-c {context_length} \
(--color [推奨: サポートされているターミナルでのカラー出力]) \
(-i [注意: インタラクティブモード]) \
(--mlock [注意: スワップの使用を避ける]) \
(--verbose) \
(--log-disable [注意: ファイルへのログ記録を無効にする、本番環境で役立つ場合があります]) \
(--metrics [注意: Prometheus互換の監視エンドポイント]) \
(--api-key [文字列]) \
(--port [整数]) \
(--flash-attn [注意: サポートされているGPUに完全にオフロードする必要があります])
📚 ドキュメント
量子化モデル一覧
量子化モデル |
状態 |
サイズ |
説明 |
KVメタデータ |
重み付け |
注意事項 |
BF16 |
利用可能 |
439 GB |
損失なし :) |
古い |
いいえ |
ほとんどの場合、Q8_0で十分です |
Q8_0 |
利用可能 |
233.27 GB |
高品質 推奨 |
更新済み |
はい |
|
Q8_0 |
利用可能 |
~110 GB |
高品質 推奨 |
更新済み |
はい |
|
Q5_K_M |
利用可能 |
155 GB |
中高品質 推奨 |
更新済み |
はい |
|
Q4_K_M |
利用可能 |
132 GB |
中品質 推奨 |
古い |
いいえ |
|
Q3_K_M |
利用可能 |
104 GB |
中低品質 |
更新済み |
はい |
|
IQ3_XS |
利用可能 |
89.6 GB |
Q3_K_Mより良い |
古い |
はい |
|
Q2_K |
利用可能 |
80.0 GB |
低品質 推奨しません |
古い |
いいえ |
|
IQ2_XXS |
利用可能 |
61.5 GB |
より低い品質 推奨しません |
古い |
はい |
|
IQ1_M |
アップロード中 |
27.3 GB |
非常に低い品質 推奨しません |
古い |
はい |
テスト目的; 少なくともIQ2を使用してください |
予定されている量子化モデル(重み付け/iMatrix)
予定されている量子化モデル |
注意事項 |
Q5_K_S |
|
Q4_K_S |
|
Q3_K_S |
|
IQ4_XS |
|
IQ2_XS |
|
IQ2_S |
|
IQ2_M |
|
メタデータKVオーバーライド
deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707
パフォーマンス
Ryzen 3 3700x (96gb 3200mhz) で [Q2_K]
を使用した場合、~1.5t/s です。
iMatrix
このリポジトリのルートに imatrix.dat
があり、Q2_K
量子化モデルを使用して62チャンクで作成されています(詳細はこちらを参照: https://github.com/ggerganov/llama.cpp/issues/5153#issuecomment-1913185693)。
groups_merged.txt
はこちらから入手できます: https://github.com/ggerganov/llama.cpp/discussions/5263#discussioncomment-8395384
検閲
このモデルは多少検閲されています。有毒なDPOでのファインチューニングが役立つ場合があります。
📄 ライセンス
- モデルの重みにはDeepSeekライセンスが適用され、これはこのリポジトリのルートにある
LICENSE
ファイルに記載されています。
- リポジトリのコードにはMITライセンスが適用されます。