DeepSeek-V2-Chat-GGUFオープンソースモデル - 無料でローカルに展開して実行できる実用的な選択肢

ホーム

Deepseek V2 Chat GGUF

leafsparkによって開発

DeepSeek-V2-ChatのGGUF量子化バージョンで、ローカル展開と実行に適しています。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #多言語対話 #効率的な量子化 #長文コンテキスト対応

ダウンロード数 1,388

リリース時間 : 5/17/2024

モデル概要

DeepSeek-V2-ChatはGGUF量子化された大規模言語モデルで、中英テキスト生成タスクをサポートします。このモデルはllama.cppで量子化されており、ローカル推論に適しています。

モデル特徴

多量子化バージョン対応

BF16からIQ1_Mまでの複数量子化バージョンを提供し、様々なハードウェアと性能ニーズに対応します。

ローカル効率的実行

llama.cppによるローカル展開をサポートし、クラウド依存なしの推論シナリオに適しています。

中英対応

モデルは中英テキスト生成タスクをサポートし、多言語アプリケーションシナリオに適しています。

モデル能力

テキスト生成

チャット補完

コード生成

使用事例

チャットアプリ

コマンドラインチャットモード

llama.cppでコマンドラインチャットモードを実行し、インタラクティブな対話をサポートします。

APIサービス

OpenAI互換サーバー

OpenAI互換のAPIサービスとして展開し、リモート呼び出しをサポートします。

🚀 DeepSeek-V2-Chat-GGUF

DeepSeek-V2-Chat-GGUFは、DeepSeek-V2-Chatを量子化したモデルです。llama.cppを使用して量子化されており、様々な量子化形式で利用できます。

image/jpeg

https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat から量子化されています。

量子化にはllama.cpp b3026 を使用しています。llama.cppのビルドが頻繁にリリースされるため、これは時間とともに変更される可能性があります。

以下のメタデータKVオーバーライドを設定してください。

🚀 クイックスタート

ダウンロード方法

bf16のダウンロード

関連するディレクトリを見つけます。
すべてのファイルをダウンロードします。
merge.pyを実行します。
マージされたGGUFが表示されます。

量子化モデルのダウンロード

関連するディレクトリを見つけます。
すべてのファイルをダウンロードします。
最初の分割ファイルを指定します（ほとんどのプログラムは自動的にすべての分割ファイルを読み込むはずです）。

llama.cppでの実行方法

コマンドラインチャットモード（チャット補完）での起動

main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)

llama.cppのOpenAI互換サーバーを使用する場合

server \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -c {context_length} \
  (--color [推奨: サポートされているターミナルでのカラー出力]) \
  (-i [注意: インタラクティブモード]) \
  (--mlock [注意: スワップの使用を避ける]) \
  (--verbose) \
  (--log-disable [注意: ファイルへのログ記録を無効にする、本番環境で役立つ場合があります]) \
  (--metrics [注意: Prometheus互換の監視エンドポイント]) \
  (--api-key [文字列]) \
  (--port [整数]) \
  (--flash-attn [注意: サポートされているGPUに完全にオフロードする必要があります])

重要度行列の作成

imatrix \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -f groups_merged.txt \
  --verbosity [0, 1, 2] \
  -ngl {GPUオフロード; CUDAでビルドする必要があります} \
  --ofreq {推奨: 1}

量子化モデルの作成

quantize \
  DeepSeek-V2-Chat.bf16.gguf \
  DeepSeek-V2-Chat.{quant}.gguf \
  {quant} \
  (--imatrix [ファイル])

⚠️ 重要提示

iMatrix量子化モデルは、GPUに完全にオフロードできる場合のみ使用してください。そうでない場合、速度が低下する可能性があります。

💻 使用例

基本的な使用法

コマンドラインチャットモードでの起動方法は以下の通りです。

main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)

高度な使用法

llama.cppのOpenAI互換サーバーを使用する場合は、以下のコマンドを実行します。

server \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -c {context_length} \
  (--color [推奨: サポートされているターミナルでのカラー出力]) \
  (-i [注意: インタラクティブモード]) \
  (--mlock [注意: スワップの使用を避ける]) \
  (--verbose) \
  (--log-disable [注意: ファイルへのログ記録を無効にする、本番環境で役立つ場合があります]) \
  (--metrics [注意: Prometheus互換の監視エンドポイント]) \
  (--api-key [文字列]) \
  (--port [整数]) \
  (--flash-attn [注意: サポートされているGPUに完全にオフロードする必要があります])

📚 ドキュメント

量子化モデル一覧

量子化モデル	状態	サイズ	説明	KVメタデータ	重み付け	注意事項
BF16	利用可能	439 GB	損失なし :)	古い	いいえ	ほとんどの場合、Q8_0で十分です
Q8_0	利用可能	233.27 GB	高品質推奨	更新済み	はい
Q8_0	利用可能	~110 GB	高品質推奨	更新済み	はい
Q5_K_M	利用可能	155 GB	中高品質推奨	更新済み	はい
Q4_K_M	利用可能	132 GB	中品質推奨	古い	いいえ
Q3_K_M	利用可能	104 GB	中低品質	更新済み	はい
IQ3_XS	利用可能	89.6 GB	Q3_K_Mより良い	古い	はい
Q2_K	利用可能	80.0 GB	低品質推奨しません	古い	いいえ
IQ2_XXS	利用可能	61.5 GB	より低い品質推奨しません	古い	はい
IQ1_M	アップロード中	27.3 GB	非常に低い品質推奨しません	古い	はい	テスト目的; 少なくともIQ2を使用してください

予定されている量子化モデル（重み付け/iMatrix）

予定されている量子化モデル	注意事項
Q5_K_S
Q4_K_S
Q3_K_S
IQ4_XS
IQ2_XS
IQ2_S
IQ2_M

メタデータKVオーバーライド

deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707

パフォーマンス

Ryzen 3 3700x (96gb 3200mhz) で [Q2_K] を使用した場合、~1.5t/s です。

iMatrix

このリポジトリのルートに imatrix.dat があり、Q2_K 量子化モデルを使用して62チャンクで作成されています（詳細はこちらを参照: https://github.com/ggerganov/llama.cpp/issues/5153#issuecomment-1913185693）。

groups_merged.txt はこちらから入手できます: https://github.com/ggerganov/llama.cpp/discussions/5263#discussioncomment-8395384