DeepSeek-V2-Chat-GGUF开源模型 - 免费本地部署运行的实用之选

首页

Deepseek V2 Chat GGUF

由 leafspark 开发

DeepSeek-V2-Chat 的 GGUF 量化版本，适用于本地部署和运行。

大型语言模型支持多种语言开源协议:MIT #多语言对话 #高效量化 #长上下文支持

下载量 1,388

发布时间 : 5/17/2024

模型简介

DeepSeek-V2-Chat 是一个基于 GGUF 量化的大语言模型，支持中英文文本生成任务。该模型通过 llama.cpp 进行量化，适用于本地推理。

模型特点

多量化版本支持

提供从 BF16 到 IQ1_M 的多种量化版本，满足不同硬件和性能需求。

本地高效运行

通过 llama.cpp 支持本地部署，适用于无云端依赖的推理场景。

中英文支持

模型支持中英文文本生成任务，适用于多语言应用场景。

模型能力

文本生成

聊天补全

代码生成

使用案例

聊天应用

命令行聊天模式

通过 llama.cpp 运行命令行聊天模式，支持交互式对话。

API 服务

OpenAI 兼容服务器

部署为 OpenAI 兼容的 API 服务，支持远程调用。

🚀 深度寻智V2聊天版GGUF模型

深度寻智V2聊天版GGUF模型是从https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat量化而来的。它使用了llama.cpp b3026进行量化，随着llama.cpp版本的快速更新，量化工具可能会随之改变。该模型可用于文本生成任务，在准确性指标上表现良好。

图片/jpeg

🚀 快速开始

下载bf16文件

找到相关目录。
下载所有文件。
运行merge.py。
合并后的GGUF文件将会生成。

下载量化文件

找到相关目录。
下载所有文件。
指定第一个分割文件（现在大多数程序应该会自动加载所有分割文件）。

在llama.cpp中运行

命令行聊天模式（聊天完成）启动

main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)

使用llama.cpp的OpenAI兼容服务器

server \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -c {context_length} \
  (--color [推荐：在支持的终端中使用彩色输出]) \
  (-i [注意：交互模式]) \
  (--mlock [注意：避免使用交换空间]) \
  (--verbose) \
  (--log-disable [注意：禁用文件日志记录，可能对生产环境有用]) \
  (--metrics [注意：Prometheus兼容的监控端点]) \
  (--api-key [字符串]) \
  (--port [整数]) \
  (--flash-attn [注意：必须完全卸载到支持的GPU])

生成重要性矩阵

imatrix \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -f groups_merged.txt \
  --verbosity [0, 1, 2] \
  -ngl {GPU卸载；必须使用CUDA构建} \
  --ofreq {推荐：1}

进行量化

quantize \
  DeepSeek-V2-Chat.bf16.gguf \
  DeepSeek-V2-Chat.{quant}.gguf \
  {quant} \
  (--imatrix [文件])

注意：仅当你可以完全将其卸载到GPU时，才使用iMatrix量化，否则速度会受到负面影响。

✨ 主要特性

量化版本

量化版本	状态	大小	描述	KV元数据	是否加权	注意事项
BF16	可用	439 GB	无损量化	旧版	否	大多数情况下Q8_0已足够
Q8_0	可用	233.27 GB	高质量，推荐使用	更新版	是
Q8_0	可用	~110 GB	高质量，推荐使用	更新版	是
Q5_K_M	可用	155 GB	中高质量，推荐使用	更新版	是
Q4_K_M	可用	132 GB	中等质量，推荐使用	旧版	否
Q3_K_M	可用	104 GB	中低质量	更新版	是
IQ3_XS	可用	89.6 GB	优于Q3_K_M	旧版	是
Q2_K	可用	80.0 GB	低质量，不推荐使用	旧版	否
IQ2_XXS	可用	61.5 GB	更低质量，不推荐使用	旧版	是
IQ1_M	上传中	27.3 GB	极低质量，不推荐使用	旧版	是	用于测试目的；至少使用IQ2

计划中的量化版本（加权/iMatrix）

计划量化版本	注意事项
Q5_K_S
Q4_K_S
Q3_K_S
IQ4_XS
IQ2_XS
IQ2_S
IQ2_M

元数据KV覆盖

deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707