🚀 Nxcode-CQ-7B-orpo-IMat-GGUF
NTQAI/Nxcode-CQ-7B-orpo的Llama.cpp imatrix量化版本
本項目是對原始模型NTQAI/Nxcode-CQ-7B-orpo進行Llama.cpp imatrix量化處理後的版本。提供了不同量化類型的文件,方便用戶根據需求進行下載和使用。
🚀 快速開始
安裝huggingface-cli
如果你還沒有安裝huggingface-cli
,可以使用以下命令進行安裝:
pip install -U "huggingface_hub[cli]"
下載指定文件
使用以下命令下載你需要的特定文件:
huggingface-cli download legraphista/Nxcode-CQ-7B-orpo-IMat-GGUF --include "Nxcode-CQ-7B-orpo.Q8_0.gguf" --local-dir ./
處理大模型文件
如果模型文件較大,它可能被分割成多個文件。要將它們全部下載到本地文件夾,可以運行以下命令:
huggingface-cli download legraphista/Nxcode-CQ-7B-orpo-IMat-GGUF --include "Nxcode-CQ-7B-orpo.Q8_0/*" --local-dir ./
# 合併GGUF文件的方法請參考常見問題解答
✨ 主要特性
- 提供多種量化類型的文件,包括不同比特位的量化,如16bit、8bit、6bit等,滿足不同場景的需求。
- 部分量化文件使用了IMatrix數據集進行優化,提高模型性能。
📦 安裝指南
請參考快速開始部分的安裝和下載步驟。
💻 使用示例
推理示例
簡單聊天模板
<|im_start|>system
You are a helpful assistant.<|im_end|>
<|im_start|>user
{user_prompt}<|im_end|>
<|im_start|>assistant
{assistant_response}<|im_end|>
<|im_start|>user
{next_user_prompt}<|im_end|>
帶系統提示的聊天模板
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{user_prompt}<|im_end|>
<|im_start|>assistant
{assistant_response}<|im_end|>
<|im_start|>user
{next_user_prompt}<|im_end|>
使用Llama.cpp進行推理
llama.cpp/main -m Nxcode-CQ-7B-orpo.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"
📚 詳細文檔
文件列表
IMatrix文件
常用量化文件
所有量化文件
🔧 技術細節
為什麼IMatrix沒有應用到所有文件?
根據這項調查,似乎只有較低的量化類型能從imatrix輸入中受益(根據hellaswag結果)。
如何合併分割的GGUF文件?
- 確保你有
gguf-split
工具:
- 要獲取
gguf-split
,請訪問https://github.com/ggerganov/llama.cpp/releases
- 從最新版本中下載適合你係統的zip文件
- 解壓存檔,你應該能夠找到
gguf-split
- 找到你的GGUF文件塊所在的文件夾(例如:
Nxcode-CQ-7B-orpo.Q8_0
)
- 運行以下命令合併文件:
gguf-split --merge Nxcode-CQ-7B-orpo.Q8_0/Nxcode-CQ-7B-orpo.Q8_0-00001-of-XXXXX.gguf Nxcode-CQ-7B-orpo.Q8_0.gguf
- 確保將`gguf-split`指向分割文件的第一個塊。
📄 許可證
- 許可證類型:其他
- 許可證鏈接:點擊查看
- 許可證名稱:通義千問研究許可證
如果你有任何建議,歡迎在@legraphista聯繫我!