DeepSeek-V2-Lite-Chat-IMat-GGUF开源模型 - 支持多量化类型本地部署推理

首页

Deepseek V2 Lite Chat IMat GGUF

由 legraphista 开发

DeepSeek-V2-Lite-Chat 的 GGUF 量化版本，支持多种量化类型，适用于本地部署和推理。

大型语言模型 #高效量化推理 #低资源部署 #中文对话优化

下载量 1,413

发布时间 : 5/26/2024

模型简介

这是 deepseek-ai/DeepSeek-V2-Lite-Chat 模型的 Llama.cpp imatrix 量化版本，适用于文本生成任务。

模型特点

多种量化选项

提供从 Q8_0 到 IQ1_S 的多种量化版本，适合不同硬件和性能需求。

IMatrix 量化支持

部分量化版本使用了 IMatrix 技术，可能提升量化后的模型性能。

本地推理优化

GGUF 格式专为本地推理优化，适合在消费级硬件上运行。

模型能力

文本生成

对话交互

支持中文任务

使用案例

聊天应用

智能对话助手

部署为本地聊天机器人，提供智能对话服务。

流畅的中文对话体验

内容生成

文本创作辅助

帮助用户生成文章、故事等文本内容。

生成符合语境的连贯文本

🚀 DeepSeek-V2-Lite-Chat-IMat-GGUF

这是基于llama.cpp的imatrix量化方法对deepseek-ai/DeepSeek-V2-Lite-Chat进行量化后的模型，可有效优化模型性能与存储需求。

原模型：deepseek-ai/DeepSeek-V2-Lite-Chat
原数据类型：BF16 (bfloat16)
量化方式：基于llama.cpp的分支 PR 7519
IMatrix数据集：点击查看

🚀 快速开始

下载模型

使用huggingface-cli下载

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

然后，你可以指定下载特定的文件：

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./

如果模型大小超过50GB，它会被分割成多个文件。若要将它们全部下载到本地文件夹，请运行：

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0
# 合并GGUF文件的方法请参考FAQ

推理

简单聊天模板

<｜begin▁of▁sentence｜>User: {user_message_1}

Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}

Assistant:

带系统提示的聊天模板

<｜begin▁of▁sentence｜>{system_message}

User: {user_message_1}

Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}

Assistant:

使用Llama.cpp进行推理

llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"

✨ 主要特性

量化优化：采用imatrix量化方法，在降低模型存储需求的同时，尽可能保留模型性能。
多量化类型支持：提供了多种量化类型的文件，如Q8_0、Q6_K、Q4_K等，可根据不同的需求进行选择。
易于使用：提供了详细的下载和推理示例，方便用户快速上手。

📦 安装指南

安装huggingface-cli

pip install -U "huggingface_hub[cli]"

💻 使用示例

基础用法

下载特定文件

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./

使用Llama.cpp进行推理

llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"

高级用法

下载分割的模型文件

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0

合并分割的GGUF文件

gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf

📚 详细文档

文件信息

IMatrix文件

状态：✅ 可用
链接：点击查看

常用量化文件

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否分割
DeepSeek-V2-Lite-Chat.Q8_0.gguf	Q8_0	16.70GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q6_K.gguf	Q6_K	14.07GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q4_K.gguf	Q4_K	10.36GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q3_K.gguf	Q3_K	8.13GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q2_K.gguf	Q2_K	6.43GB	✅ 可用	🟢 是	📦 否

所有量化文件

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否分割
DeepSeek-V2-Lite-Chat.FP16.gguf	F16	31.42GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.BF16.gguf	BF16	31.42GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q5_K.gguf	Q5_K	11.85GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q5_K_S.gguf	Q5_K_S	11.14GB	✅ 可用	⚪ 否	📦 否
DeepSeek-V2-Lite-Chat.Q4_K_S.gguf	Q4_K_S	9.53GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q3_K_L.gguf	Q3_K_L	8.46GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q3_K_S.gguf	Q3_K_S	7.49GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.Q2_K_S.gguf	Q2_K_S	6.46GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ4_NL.gguf	IQ4_NL	8.91GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ4_XS.gguf	IQ4_XS	8.57GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_M.gguf	IQ3_M	7.55GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_S.gguf	IQ3_S	7.49GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_XS.gguf	IQ3_XS	7.12GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ3_XXS.gguf	IQ3_XXS	6.96GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_M.gguf	IQ2_M	6.33GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_S.gguf	IQ2_S	6.01GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_XS.gguf	IQ2_XS	5.97GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ2_XXS.gguf	IQ2_XXS	5.64GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ1_M.gguf	IQ1_M	5.24GB	✅ 可用	🟢 是	📦 否
DeepSeek-V2-Lite-Chat.IQ1_S.gguf	IQ1_S	4.99GB	✅ 可用	🟢 是	📦 否

🔧 技术细节

IMatrix未全部应用的原因

根据这项调查，似乎只有较低的量化级别能从imatrix输入中受益（根据hellaswag结果）。

合并分割的GGUF文件的方法

确保你已经安装了gguf-split：
- 访问https://github.com/ggerganov/llama.cpp/releases 下载适合你系统的zip文件。
- 解压文件后，你应该能找到gguf-split。
找到你的GGUF分割文件所在的文件夹（例如：DeepSeek-V2-Lite-Chat.Q8_0）。
运行以下命令合并文件：

gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf

确保将gguf-split指向分割文件的第一个块。

📄 反馈与建议

如果你有任何建议，欢迎在 @legraphista 联系我！

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库