🚀 Qwen2.5-Coder-14B-Instruct-abliterated的Llamacpp imatrix量化版本
本項目是對Qwen2.5-Coder-14B-Instruct-abliterated模型進行量化處理的成果。它藉助特定工具和方法,生成了不同量化類型的模型文件,以滿足不同用戶在性能、質量和資源使用上的需求。用戶可以根據自身設備的硬件條件,如RAM、VRAM的大小,選擇合適的量化模型文件進行下載和使用。
🚀 快速開始
量化信息
使用 llama.cpp 版本 b4058 進行量化。
原始模型:https://huggingface.co/huihui-ai/Qwen2.5-Coder-14B-Instruct-abliterated
所有量化模型均使用imatrix選項,並採用來自 此處 的數據集。
運行環境
可以在 LM Studio 中運行這些量化模型。
提示格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📦 安裝指南
安裝huggingface-cli
首先,確保你已經安裝了huggingface-cli:
pip install -U "huggingface_hub[cli]"
下載特定文件
然後,你可以指定要下載的特定文件:
huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./
下載拆分文件
如果模型大小超過50GB,它會被拆分成多個文件。要將它們全部下載到本地文件夾,可以運行:
huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0/*" --local-dir ./
你可以指定一個新的本地目錄(如Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0),也可以直接下載到當前目錄(./)。
📚 詳細文檔
下載文件選擇
屬性 |
詳情 |
文件名 |
點擊鏈接下載 |
量化類型 |
f16、Q8_0、Q6_K_L等多種類型 |
文件大小 |
從4.70GB到29.55GB不等 |
拆分情況 |
部分大文件會拆分,多數為false |
描述 |
包含不同質量和性能的說明 |
嵌入/輸出權重
部分量化模型(如Q3_K_XL、Q4_K_L等)採用了標準量化方法,但將嵌入和輸出權重量化為Q8_0,而非默認值。有人認為這樣可以提高質量,也有人覺得沒有區別。如果你使用了這些模型,請分享你的使用結果,我希望瞭解這些模型是否真正有用,以免上傳無人使用的量化模型。
Q4_0_X_X量化類型
這些量化類型 不適用於 Metal(蘋果)卸載,僅適用於ARM芯片。如果你使用的是ARM芯片,Q4_0_X_X量化類型會顯著提高速度。你可以查看 原始拉取請求 中的Q4_0_4_4速度比較。要確定哪種量化類型最適合你的ARM芯片,可以查看 AArch64 SoC特性(感謝EloyOn!)。
如何選擇文件
Artefact2 提供了一份很棒的文章,帶有展示各種性能的圖表,點擊查看。首先,你需要確定可以運行的模型大小,這需要了解你擁有的系統內存(RAM)和/或顯存(VRAM)大小。
- 追求最快速度:如果你希望模型運行儘可能快,應將整個模型放入GPU的顯存中。選擇文件大小比GPU總顯存小1 - 2GB的量化模型。
- 追求最高質量:如果你追求絕對的最高質量,將系統內存和GPU顯存相加,然後選擇文件大小比該總和小1 - 2GB的量化模型。
接下來,你需要決定是否使用“I量化”或“K量化”。
- 不想過多考慮:選擇K量化模型,格式為 'QX_K_X',如Q5_K_M。
- 深入研究:你可以查看這個非常有用的特性圖表:llama.cpp特性矩陣。一般來說,如果你目標是低於Q4的量化,並且使用cuBLAS(英偉達)或rocBLAS(AMD),可以考慮I量化模型,格式為IQX_X,如IQ3_M。這些模型較新,在相同大小下性能更好。I量化模型也可以在CPU和蘋果Metal上使用,但速度會比K量化模型慢,因此你需要在速度和性能之間做出權衡。I量化模型 不兼容 Vulcan(也是AMD),所以如果你使用AMD顯卡,請仔細檢查是使用rocBLAS版本還是Vulcan版本。撰寫本文時,LM Studio有支持ROCm的預覽版,其他推理引擎也有針對ROCm的特定版本。
📄 許可證
本項目採用 Apache 2.0許可證。
致謝
感謝kalomaze和Dampf協助創建imatrix校準數據集。感謝ZeroWw啟發我對嵌入/輸出進行實驗。如果你想支持我的工作,請訪問我的ko-fi頁面:https://ko-fi.com/bartowski。