🚀 DeepSeek-V2-Lite-Chat-IMat-GGUF
这是基于llama.cpp的imatrix量化方法对deepseek-ai/DeepSeek-V2-Lite-Chat进行量化后的模型,可有效优化模型性能与存储需求。
原模型:deepseek-ai/DeepSeek-V2-Lite-Chat
原数据类型:BF16
(bfloat16
)
量化方式:基于llama.cpp的分支 PR 7519
IMatrix数据集:点击查看
🚀 快速开始
下载模型
使用huggingface-cli下载
首先,确保你已经安装了huggingface-cli:
pip install -U "huggingface_hub[cli]"
然后,你可以指定下载特定的文件:
huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./
如果模型大小超过50GB,它会被分割成多个文件。若要将它们全部下载到本地文件夹,请运行:
huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0
# 合并GGUF文件的方法请参考FAQ
推理
简单聊天模板
<|begin▁of▁sentence|>User: {user_message_1}
Assistant: {assistant_message_1}<|end▁of▁sentence|>User: {user_message_2}
Assistant:
带系统提示的聊天模板
<|begin▁of▁sentence|>{system_message}
User: {user_message_1}
Assistant: {assistant_message_1}<|end▁of▁sentence|>User: {user_message_2}
Assistant:
使用Llama.cpp进行推理
llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"
✨ 主要特性
- 量化优化:采用imatrix量化方法,在降低模型存储需求的同时,尽可能保留模型性能。
- 多量化类型支持:提供了多种量化类型的文件,如Q8_0、Q6_K、Q4_K等,可根据不同的需求进行选择。
- 易于使用:提供了详细的下载和推理示例,方便用户快速上手。
📦 安装指南
安装huggingface-cli
pip install -U "huggingface_hub[cli]"
💻 使用示例
基础用法
下载特定文件
huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./
使用Llama.cpp进行推理
llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"
高级用法
下载分割的模型文件
huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0
合并分割的GGUF文件
gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf
📚 详细文档
文件信息
IMatrix文件
状态:✅ 可用
链接:点击查看
常用量化文件
所有量化文件
🔧 技术细节
IMatrix未全部应用的原因
根据这项调查,似乎只有较低的量化级别能从imatrix输入中受益(根据hellaswag结果)。
合并分割的GGUF文件的方法
- 确保你已经安装了
gguf-split
:
- 访问https://github.com/ggerganov/llama.cpp/releases 下载适合你系统的zip文件。
- 解压文件后,你应该能找到
gguf-split
。
- 找到你的GGUF分割文件所在的文件夹(例如:
DeepSeek-V2-Lite-Chat.Q8_0
)。
- 运行以下命令合并文件:
gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf
确保将gguf-split
指向分割文件的第一个块。
📄 反馈与建议
如果你有任何建议,欢迎在 @legraphista 联系我!