🚀 深度寻智V2聊天版GGUF模型
深度寻智V2聊天版GGUF模型是从https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat量化而来的。它使用了llama.cpp b3026进行量化,随着llama.cpp版本的快速更新,量化工具可能会随之改变。该模型可用于文本生成任务,在准确性指标上表现良好。

🚀 快速开始
下载bf16文件
- 找到相关目录。
- 下载所有文件。
- 运行
merge.py
。
- 合并后的GGUF文件将会生成。
下载量化文件
- 找到相关目录。
- 下载所有文件。
- 指定第一个分割文件(现在大多数程序应该会自动加载所有分割文件)。
在llama.cpp中运行
命令行聊天模式(聊天完成)启动
main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)
使用llama.cpp的OpenAI兼容服务器
server \
-m DeepSeek-V2-Chat.{quant}.gguf \
-c {context_length} \
(--color [推荐:在支持的终端中使用彩色输出]) \
(-i [注意:交互模式]) \
(--mlock [注意:避免使用交换空间]) \
(--verbose) \
(--log-disable [注意:禁用文件日志记录,可能对生产环境有用]) \
(--metrics [注意:Prometheus兼容的监控端点]) \
(--api-key [字符串]) \
(--port [整数]) \
(--flash-attn [注意:必须完全卸载到支持的GPU])
生成重要性矩阵
imatrix \
-m DeepSeek-V2-Chat.{quant}.gguf \
-f groups_merged.txt \
--verbosity [0, 1, 2] \
-ngl {GPU卸载;必须使用CUDA构建} \
--ofreq {推荐:1}
进行量化
quantize \
DeepSeek-V2-Chat.bf16.gguf \
DeepSeek-V2-Chat.{quant}.gguf \
{quant} \
(--imatrix [文件])
注意:仅当你可以完全将其卸载到GPU时,才使用iMatrix量化,否则速度会受到负面影响。
✨ 主要特性
量化版本
量化版本 |
状态 |
大小 |
描述 |
KV元数据 |
是否加权 |
注意事项 |
BF16 |
可用 |
439 GB |
无损量化 |
旧版 |
否 |
大多数情况下Q8_0已足够 |
Q8_0 |
可用 |
233.27 GB |
高质量,推荐使用 |
更新版 |
是 |
|
Q8_0 |
可用 |
~110 GB |
高质量,推荐使用 |
更新版 |
是 |
|
Q5_K_M |
可用 |
155 GB |
中高质量,推荐使用 |
更新版 |
是 |
|
Q4_K_M |
可用 |
132 GB |
中等质量,推荐使用 |
旧版 |
否 |
|
Q3_K_M |
可用 |
104 GB |
中低质量 |
更新版 |
是 |
|
IQ3_XS |
可用 |
89.6 GB |
优于Q3_K_M |
旧版 |
是 |
|
Q2_K |
可用 |
80.0 GB |
低质量,不推荐使用 |
旧版 |
否 |
|
IQ2_XXS |
可用 |
61.5 GB |
更低质量,不推荐使用 |
旧版 |
是 |
|
IQ1_M |
上传中 |
27.3 GB |
极低质量,不推荐使用 |
旧版 |
是 |
用于测试目的;至少使用IQ2 |
计划中的量化版本(加权/iMatrix)
计划量化版本 |
注意事项 |
Q5_K_S |
|
Q4_K_S |
|
Q3_K_S |
|
IQ4_XS |
|
IQ2_XS |
|
IQ2_S |
|
IQ2_M |
|
元数据KV覆盖
deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707
🔧 技术细节
性能
在Ryzen 3 3700x(96GB 3200MHz)上使用[Q2_K]
时,速度约为*~1.5t/s*。
iMatrix
在仓库根目录下可以找到imatrix.dat
,它是使用Q2_K
量化生成的,包含62个块(详情请见:https://github.com/ggerganov/llama.cpp/issues/5153#issuecomment-1913185693)。
使用groups_merged.txt
,可在此处找到:https://github.com/ggerganov/llama.cpp/discussions/5263#discussioncomment-8395384
审查情况
该模型有一定的审查机制,在有毒的DPO上进行微调可能会有所帮助。
📄 许可证
- 模型权重遵循深度寻智的许可证,可在仓库根目录的
LICENSE
文件中找到。
- 仓库代码遵循MIT许可证。