DeepSeek-V2-Lite-Chat-IMat-GGUF開源模型 - 支持多量化類型本地部署推理

首頁

Deepseek V2 Lite Chat IMat GGUF

由legraphista開發

DeepSeek-V2-Lite-Chat 的 GGUF 量化版本，支持多種量化類型，適用於本地部署和推理。

大型語言模型 #高效量化推理 #低資源部署 #中文對話優化

下載量 1,413

發布時間 : 5/26/2024

模型概述

這是 deepseek-ai/DeepSeek-V2-Lite-Chat 模型的 Llama.cpp imatrix 量化版本，適用於文本生成任務。

模型特點

多種量化選項

提供從 Q8_0 到 IQ1_S 的多種量化版本，適合不同硬件和性能需求。

IMatrix 量化支持

部分量化版本使用了 IMatrix 技術，可能提升量化後的模型性能。

本地推理優化

GGUF 格式專為本地推理優化，適合在消費級硬件上運行。

模型能力

文本生成

對話交互

支持中文任務

使用案例

聊天應用

智能對話助手

部署為本地聊天機器人，提供智能對話服務。

流暢的中文對話體驗

內容生成

文本創作輔助

幫助用戶生成文章、故事等文本內容。

生成符合語境的連貫文本

🚀 DeepSeek-V2-Lite-Chat-IMat-GGUF

這是基於llama.cpp的imatrix量化方法對deepseek-ai/DeepSeek-V2-Lite-Chat進行量化後的模型，可有效優化模型性能與存儲需求。

原模型：deepseek-ai/DeepSeek-V2-Lite-Chat
原數據類型：BF16 (bfloat16)
量化方式：基於llama.cpp的分支 PR 7519
IMatrix數據集：點擊查看

🚀 快速開始

下載模型

使用huggingface-cli下載

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

然後，你可以指定下載特定的文件：

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./

如果模型大小超過50GB，它會被分割成多個文件。若要將它們全部下載到本地文件夾，請運行：

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0
# 合併GGUF文件的方法請參考FAQ

推理

簡單聊天模板

<｜begin▁of▁sentence｜>User: {user_message_1}

Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}

Assistant:

帶系統提示的聊天模板

<｜begin▁of▁sentence｜>{system_message}

User: {user_message_1}

Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}

Assistant:

使用Llama.cpp進行推理

llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"

✨ 主要特性

量化優化：採用imatrix量化方法，在降低模型存儲需求的同時，儘可能保留模型性能。
多量化類型支持：提供了多種量化類型的文件，如Q8_0、Q6_K、Q4_K等，可根據不同的需求進行選擇。
易於使用：提供了詳細的下載和推理示例，方便用戶快速上手。

📦 安裝指南

安裝huggingface-cli

pip install -U "huggingface_hub[cli]"

💻 使用示例

基礎用法

下載特定文件

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./

使用Llama.cpp進行推理

llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"

高級用法

下載分割的模型文件

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0

合併分割的GGUF文件

gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf

📚 詳細文檔

文件信息

IMatrix文件

狀態：✅ 可用
鏈接：點擊查看

常用量化文件

文件名	量化類型	文件大小	狀態	是否使用IMatrix	是否分割
DeepSeek-V2-Lite-Chat.Q8_0.gguf	Q8_0	16.70GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q6_K.gguf	Q6_K	14.07GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q4_K.gguf	Q4_K	10.36GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q3_K.gguf	Q3_K	8.13GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q2_K.gguf	Q2_K	6.43GB	✅ 可用	🟢 是	📦 否

所有量化文件

文件名	量化類型	文件大小	狀態	是否使用IMatrix	是否分割
DeepSeek-V2-Lite-Chat.FP16.gguf	F16	31.42GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.BF16.gguf	BF16	31.42GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q5_K.gguf	Q5_K	11.85GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q5_K_S.gguf	Q5_K_S	11.14GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q4_K_S.gguf	Q4_K_S	9.53GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q3_K_L.gguf	Q3_K_L	8.46GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q3_K_S.gguf	Q3_K_S	7.49GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q2_K_S.gguf	Q2_K_S	6.46GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ4_NL.gguf	IQ4_NL	8.91GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ4_XS.gguf	IQ4_XS	8.57GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_M.gguf	IQ3_M	7.55GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_S.gguf	IQ3_S	7.49GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_XS.gguf	IQ3_XS	7.12GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_XXS.gguf	IQ3_XXS	6.96GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_M.gguf	IQ2_M	6.33GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_S.gguf	IQ2_S	6.01GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_XS.gguf	IQ2_XS	5.97GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_XXS.gguf	IQ2_XXS	5.64GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ1_M.gguf	IQ1_M	5.24GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ1_S.gguf	IQ1_S	4.99GB	✅ 可用	🟢 是	📦 否

🔧 技術細節

IMatrix未全部應用的原因

根據這項調查，似乎只有較低的量化級別能從imatrix輸入中受益（根據hellaswag結果）。

合併分割的GGUF文件的方法

確保你已經安裝了gguf-split：
- 訪問https://github.com/ggerganov/llama.cpp/releases 下載適合你係統的zip文件。
- 解壓文件後，你應該能找到gguf-split。
找到你的GGUF分割文件所在的文件夾（例如：DeepSeek-V2-Lite-Chat.Q8_0）。
運行以下命令合併文件：

gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf

確保將gguf-split指向分割文件的第一個塊。

📄 反饋與建議

如果你有任何建議，歡迎在 @legraphista 聯繫我！

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫