DeepSeek-V2-Lite-IMat-GGUF开源模型 - 减少资源需求，便于免费部署应用

首页

Deepseek V2 Lite IMat GGUF

由 legraphista 开发

DeepSeek-V2-Lite 的 GGUF 量化版本，通过 Llama.cpp imatrix 量化处理，减少存储和计算资源需求，便于部署。

大型语言模型 #高效量化 #多精度适配 #轻量部署

下载量 491

发布时间 : 5/26/2024

模型简介

该模型是对 DeepSeek-V2-Lite 进行量化处理后的版本，适用于在资源受限的设备上进行高效推理。

模型特点

高效量化

通过 Llama.cpp imatrix 量化处理，显著减少模型大小和计算资源需求。

多量化选项

提供多种量化级别（如 Q8_0、Q6_K、Q4_K 等），适应不同硬件需求。

易于部署

支持在多种设备上运行，适合本地推理。

模型能力

文本生成

高效推理

使用案例

本地推理

文本生成

在本地设备上运行模型生成文本。

高效生成文本，适合资源受限环境。

🚀 DeepSeek-V2-Lite-IMat-GGUF

本项目是对deepseek-ai/DeepSeek-V2-Lite模型进行Llama.cpp imatrix量化处理后的成果。它能在保证一定性能的前提下，有效减少模型的存储和计算资源需求，方便在不同设备上进行部署和推理。

原始模型：deepseek-ai/DeepSeek-V2-Lite
原始数据类型：BF16 (bfloat16)
量化工具：llama.cpp https://github.com/ggerganov/llama.cpp/pull/7519
IMatrix数据集：点击查看

📦 安装指南

使用`huggingface-cli`下载

若你尚未安装huggingface-cli，可执行以下命令进行安装：

pip install -U "huggingface_hub[cli]"

下载指定文件：

huggingface-cli download legraphista/DeepSeek-V2-Lite-IMat-GGUF --include "DeepSeek-V2-Lite.Q8_0.gguf" --local-dir ./

若模型文件较大，已被拆分为多个文件。若要将它们全部下载到本地文件夹，可运行以下命令：

huggingface-cli download legraphista/DeepSeek-V2-Lite-IMat-GGUF --include "DeepSeek-V2-Lite.Q8_0/*" --local-dir DeepSeek-V2-Lite.Q8_0
# 合并GGUF文件的方法请参考常见问题解答

💻 使用示例

Llama.cpp推理

llama.cpp/main -m DeepSeek-V2-Lite.Q8_0.gguf --color -i -p "prompt here"

📚 详细文档

文件信息

IMatrix

状态：✅ 可用
链接：点击查看

常用量化文件

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否拆分
DeepSeek-V2-Lite.Q8_0.gguf	Q8_0	16.70GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q6_K.gguf	Q6_K	14.07GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q4_K.gguf	Q4_K	10.36GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q3_K.gguf	Q3_K	8.13GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q2_K.gguf	Q2_K	6.43GB	✅ 可用	✅ 是	❌ 否

所有量化文件

文件名	量化类型	文件大小	状态	是否使用IMatrix	是否拆分
DeepSeek-V2-Lite.FP16.gguf	F16	31.42GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.BF16.gguf	BF16	31.42GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q5_K.gguf	Q5_K	11.85GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q5_K_S.gguf	Q5_K_S	11.14GB	✅ 可用	❌ 否	❌ 否
DeepSeek-V2-Lite.Q4_K_S.gguf	Q4_K_S	9.53GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q3_K_L.gguf	Q3_K_L	8.46GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q3_K_S.gguf	Q3_K_S	7.49GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.Q2_K_S.gguf	Q2_K_S	6.46GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ4_NL.gguf	IQ4_NL	8.91GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ4_XS.gguf	IQ4_XS	8.57GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_M.gguf	IQ3_M	7.55GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_S.gguf	IQ3_S	7.49GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_XS.gguf	IQ3_XS	7.12GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ3_XXS.gguf	IQ3_XXS	6.96GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_M.gguf	IQ2_M	6.33GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_S.gguf	IQ2_S	6.01GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_XS.gguf	IQ2_XS	5.97GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ2_XXS.gguf	IQ2_XXS	5.64GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ1_M.gguf	IQ1_M	5.24GB	✅ 可用	✅ 是	❌ 否
DeepSeek-V2-Lite.IQ1_S.gguf	IQ1_S	4.99GB	✅ 可用	✅ 是	❌ 否

🔧 技术细节

为何IMatrix并非在所有地方都适用？

根据此调查，似乎只有较低的量化级别能从imatrix输入中受益（根据hellaswag的结果）。

如何合并拆分的GGUF文件？

确保你已获取gguf-split工具：
- 访问https://github.com/ggerganov/llama.cpp/releases 。
- 从最新版本中下载适合你系统的压缩包。
- 解压压缩包，你应该能找到gguf-split工具。
找到你的GGUF文件块所在的文件夹（例如：DeepSeek-V2-Lite.Q8_0）。
运行以下命令合并文件：

gguf-split --merge DeepSeek-V2-Lite.Q8_0/DeepSeek-V2-Lite.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite.Q8_0.gguf

请确保将gguf-split指向拆分文件的第一个块。

若你有任何建议，欢迎通过@legraphista联系我！

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库