🚀 深度尋智V2聊天版GGUF模型
深度尋智V2聊天版GGUF模型是從https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat量化而來的。它使用了llama.cpp b3026進行量化,隨著llama.cpp版本的快速更新,量化工具可能會隨之改變。該模型可用於文本生成任務,在準確性指標上表現良好。

🚀 快速開始
下載bf16文件
- 找到相關目錄。
- 下載所有文件。
- 運行
merge.py
。
- 合併後的GGUF文件將會生成。
下載量化文件
- 找到相關目錄。
- 下載所有文件。
- 指定第一個分割文件(現在大多數程序應該會自動加載所有分割文件)。
在llama.cpp中運行
命令行聊天模式(聊天完成)啟動
main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)
使用llama.cpp的OpenAI兼容服務器
server \
-m DeepSeek-V2-Chat.{quant}.gguf \
-c {context_length} \
(--color [推薦:在支持的終端中使用彩色輸出]) \
(-i [注意:交互模式]) \
(--mlock [注意:避免使用交換空間]) \
(--verbose) \
(--log-disable [注意:禁用文件日誌記錄,可能對生產環境有用]) \
(--metrics [注意:Prometheus兼容的監控端點]) \
(--api-key [字符串]) \
(--port [整數]) \
(--flash-attn [注意:必須完全卸載到支持的GPU])
生成重要性矩陣
imatrix \
-m DeepSeek-V2-Chat.{quant}.gguf \
-f groups_merged.txt \
--verbosity [0, 1, 2] \
-ngl {GPU卸載;必須使用CUDA構建} \
--ofreq {推薦:1}
進行量化
quantize \
DeepSeek-V2-Chat.bf16.gguf \
DeepSeek-V2-Chat.{quant}.gguf \
{quant} \
(--imatrix [文件])
注意:僅當你可以完全將其卸載到GPU時,才使用iMatrix量化,否則速度會受到負面影響。
✨ 主要特性
量化版本
量化版本 |
狀態 |
大小 |
描述 |
KV元數據 |
是否加權 |
注意事項 |
BF16 |
可用 |
439 GB |
無損量化 |
舊版 |
否 |
大多數情況下Q8_0已足夠 |
Q8_0 |
可用 |
233.27 GB |
高質量,推薦使用 |
更新版 |
是 |
|
Q8_0 |
可用 |
~110 GB |
高質量,推薦使用 |
更新版 |
是 |
|
Q5_K_M |
可用 |
155 GB |
中高質量,推薦使用 |
更新版 |
是 |
|
Q4_K_M |
可用 |
132 GB |
中等質量,推薦使用 |
舊版 |
否 |
|
Q3_K_M |
可用 |
104 GB |
中低質量 |
更新版 |
是 |
|
IQ3_XS |
可用 |
89.6 GB |
優於Q3_K_M |
舊版 |
是 |
|
Q2_K |
可用 |
80.0 GB |
低質量,不推薦使用 |
舊版 |
否 |
|
IQ2_XXS |
可用 |
61.5 GB |
更低質量,不推薦使用 |
舊版 |
是 |
|
IQ1_M |
上傳中 |
27.3 GB |
極低質量,不推薦使用 |
舊版 |
是 |
用於測試目的;至少使用IQ2 |
計劃中的量化版本(加權/iMatrix)
計劃量化版本 |
注意事項 |
Q5_K_S |
|
Q4_K_S |
|
Q3_K_S |
|
IQ4_XS |
|
IQ2_XS |
|
IQ2_S |
|
IQ2_M |
|
元數據KV覆蓋
deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707
🔧 技術細節
性能
在Ryzen 3 3700x(96GB 3200MHz)上使用[Q2_K]
時,速度約為*~1.5t/s*。
iMatrix
在倉庫根目錄下可以找到imatrix.dat
,它是使用Q2_K
量化生成的,包含62個塊(詳情請見:https://github.com/ggerganov/llama.cpp/issues/5153#issuecomment-1913185693)。
使用groups_merged.txt
,可在此處找到:https://github.com/ggerganov/llama.cpp/discussions/5263#discussioncomment-8395384
審查情況
該模型有一定的審查機制,在有毒的DPO上進行微調可能會有所幫助。
📄 許可證
- 模型權重遵循深度尋智的許可證,可在倉庫根目錄的
LICENSE
文件中找到。
- 倉庫代碼遵循MIT許可證。