🚀 Nxcode-CQ-7B-orpo-IMat-GGUF
NTQAI/Nxcode-CQ-7B-orpo的Llama.cpp imatrix量化版本
本项目是对原始模型NTQAI/Nxcode-CQ-7B-orpo进行Llama.cpp imatrix量化处理后的版本。提供了不同量化类型的文件,方便用户根据需求进行下载和使用。
🚀 快速开始
安装huggingface-cli
如果你还没有安装huggingface-cli
,可以使用以下命令进行安装:
pip install -U "huggingface_hub[cli]"
下载指定文件
使用以下命令下载你需要的特定文件:
huggingface-cli download legraphista/Nxcode-CQ-7B-orpo-IMat-GGUF --include "Nxcode-CQ-7B-orpo.Q8_0.gguf" --local-dir ./
处理大模型文件
如果模型文件较大,它可能被分割成多个文件。要将它们全部下载到本地文件夹,可以运行以下命令:
huggingface-cli download legraphista/Nxcode-CQ-7B-orpo-IMat-GGUF --include "Nxcode-CQ-7B-orpo.Q8_0/*" --local-dir ./
# 合并GGUF文件的方法请参考常见问题解答
✨ 主要特性
- 提供多种量化类型的文件,包括不同比特位的量化,如16bit、8bit、6bit等,满足不同场景的需求。
- 部分量化文件使用了IMatrix数据集进行优化,提高模型性能。
📦 安装指南
请参考快速开始部分的安装和下载步骤。
💻 使用示例
推理示例
简单聊天模板
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
{user_prompt}<|im_end|>
<|im_start|>assistant
{assistant_response}<|im_end|>
<|im_start|>user
{next_user_prompt}<|im_end|>
带系统提示的聊天模板
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{user_prompt}<|im_end|>
<|im_start|>assistant
{assistant_response}<|im_end|>
<|im_start|>user
{next_user_prompt}<|im_end|>
使用Llama.cpp进行推理
llama.cpp/main -m Nxcode-CQ-7B-orpo.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"
📚 详细文档
文件列表
IMatrix文件
常用量化文件
所有量化文件
🔧 技术细节
为什么IMatrix没有应用到所有文件?
根据这项调查,似乎只有较低的量化类型能从imatrix输入中受益(根据hellaswag结果)。
如何合并分割的GGUF文件?
- 确保你有
gguf-split
工具:
- 要获取
gguf-split
,请访问https://github.com/ggerganov/llama.cpp/releases
- 从最新版本中下载适合你系统的zip文件
- 解压存档,你应该能够找到
gguf-split
- 找到你的GGUF文件块所在的文件夹(例如:
Nxcode-CQ-7B-orpo.Q8_0
)
- 运行以下命令合并文件:
gguf-split --merge Nxcode-CQ-7B-orpo.Q8_0/Nxcode-CQ-7B-orpo.Q8_0-00001-of-XXXXX.gguf Nxcode-CQ-7B-orpo.Q8_0.gguf
- 确保将`gguf-split`指向分割文件的第一个块。
📄 许可证
- 许可证类型:其他
- 许可证链接:点击查看
- 许可证名称:通义千问研究许可证
如果你有任何建议,欢迎在@legraphista联系我!