DeepSeek-V2-Chat-GGUF開源模型 - 免費本地部署運行的實用之選

首頁

Deepseek V2 Chat GGUF

由leafspark開發

DeepSeek-V2-Chat 的 GGUF 量化版本，適用於本地部署和運行。

大型語言模型支持多種語言開源協議:MIT #多語言對話 #高效量化 #長上下文支持

下載量 1,388

發布時間 : 5/17/2024

模型概述

DeepSeek-V2-Chat 是一個基於 GGUF 量化的大語言模型，支持中英文文本生成任務。該模型通過 llama.cpp 進行量化，適用於本地推理。

模型特點

多量化版本支持

提供從 BF16 到 IQ1_M 的多種量化版本，滿足不同硬件和性能需求。

本地高效運行

通過 llama.cpp 支持本地部署，適用於無雲端依賴的推理場景。

中英文支持

模型支持中英文文本生成任務，適用於多語言應用場景。

模型能力

文本生成

聊天補全

代碼生成

使用案例

聊天應用

命令行聊天模式

通過 llama.cpp 運行命令行聊天模式，支持交互式對話。

API 服務

OpenAI 兼容服務器

部署為 OpenAI 兼容的 API 服務，支持遠程調用。

🚀 深度尋智V2聊天版GGUF模型

深度尋智V2聊天版GGUF模型是從https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat量化而來的。它使用了llama.cpp b3026進行量化，隨著llama.cpp版本的快速更新，量化工具可能會隨之改變。該模型可用於文本生成任務，在準確性指標上表現良好。

圖片/jpeg

🚀 快速開始

下載bf16文件

找到相關目錄。
下載所有文件。
運行merge.py。
合併後的GGUF文件將會生成。

下載量化文件

找到相關目錄。
下載所有文件。
指定第一個分割文件（現在大多數程序應該會自動加載所有分割文件）。

在llama.cpp中運行

命令行聊天模式（聊天完成）啟動

main -m DeepSeek-V2-Chat.{quant}.gguf -c {context length} --color -c (-i)

使用llama.cpp的OpenAI兼容服務器

server \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -c {context_length} \
  (--color [推薦：在支持的終端中使用彩色輸出]) \
  (-i [注意：交互模式]) \
  (--mlock [注意：避免使用交換空間]) \
  (--verbose) \
  (--log-disable [注意：禁用文件日誌記錄，可能對生產環境有用]) \
  (--metrics [注意：Prometheus兼容的監控端點]) \
  (--api-key [字符串]) \
  (--port [整數]) \
  (--flash-attn [注意：必須完全卸載到支持的GPU])

生成重要性矩陣

imatrix \
  -m DeepSeek-V2-Chat.{quant}.gguf \
  -f groups_merged.txt \
  --verbosity [0, 1, 2] \
  -ngl {GPU卸載；必須使用CUDA構建} \
  --ofreq {推薦：1}

進行量化

quantize \
  DeepSeek-V2-Chat.bf16.gguf \
  DeepSeek-V2-Chat.{quant}.gguf \
  {quant} \
  (--imatrix [文件])

注意：僅當你可以完全將其卸載到GPU時，才使用iMatrix量化，否則速度會受到負面影響。

✨ 主要特性

量化版本

量化版本	狀態	大小	描述	KV元數據	是否加權	注意事項
BF16	可用	439 GB	無損量化	舊版	否	大多數情況下Q8_0已足夠
Q8_0	可用	233.27 GB	高質量，推薦使用	更新版	是
Q8_0	可用	~110 GB	高質量，推薦使用	更新版	是
Q5_K_M	可用	155 GB	中高質量，推薦使用	更新版	是
Q4_K_M	可用	132 GB	中等質量，推薦使用	舊版	否
Q3_K_M	可用	104 GB	中低質量	更新版	是
IQ3_XS	可用	89.6 GB	優於Q3_K_M	舊版	是
Q2_K	可用	80.0 GB	低質量，不推薦使用	舊版	否
IQ2_XXS	可用	61.5 GB	更低質量，不推薦使用	舊版	是
IQ1_M	上傳中	27.3 GB	極低質量，不推薦使用	舊版	是	用於測試目的；至少使用IQ2

計劃中的量化版本（加權/iMatrix）

計劃量化版本	注意事項
Q5_K_S
Q4_K_S
Q3_K_S
IQ4_XS
IQ2_XS
IQ2_S
IQ2_M

元數據KV覆蓋

deepseek2.attention.q_lora_rank=int:1536
deepseek2.attention.kv_lora_rank=int:512
deepseek2.expert_shared_count=int:2
deepseek2.expert_feed_forward_length=int:1536
deepseek2.expert_weights_scale=float:16
deepseek2.leading_dense_block_count=int:1
deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707