🚀 Qwen2.5-Coder-1.5B-Instruct-abliterated的Llamacpp imatrix量化模型
本項目提供了基於llama.cpp
對Qwen2.5-Coder-1.5B-Instruct-abliterated
模型進行量化的版本。通過量化,能夠在不同硬件條件下更高效地運行模型,滿足多樣化的使用需求。
🚀 快速開始
模型量化
使用 llama.cpp 版本 b4058 進行量化。原始模型可從 這裡 獲取。所有量化版本均使用imatrix
選項,並採用 該數據集 進行校準。
運行環境
你可以在 LM Studio 中運行這些量化模型。
提示詞格式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📦 安裝指南
安裝huggingface-cli
首先,確保你已經安裝了huggingface-cli
:
pip install -U "huggingface_hub[cli]"
下載指定文件
你可以指定要下載的具體文件:
huggingface-cli download bartowski/Qwen2.5-Coder-1.5B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-1.5B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./
下載分割文件
如果模型大小超過50GB,它會被分割成多個文件。要將它們全部下載到本地文件夾,請運行:
huggingface-cli download bartowski/Qwen2.5-Coder-1.5B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-1.5B-Instruct-abliterated-Q8_0/*" --local-dir ./
你可以指定一個新的本地目錄(如Qwen2.5-Coder-1.5B-Instruct-abliterated-Q8_0
),或者直接下載到當前目錄(./
)。
📚 詳細文檔
下載文件列表
嵌入/輸出權重
部分量化模型(如Q3_K_XL、Q4_K_L等)採用了標準的量化方法,將嵌入和輸出權重量化為Q8_0,而不是默認值。
有人認為這樣可以提高質量,也有人沒有發現明顯差異。如果你使用了這些模型,請留言分享你的使用結果。我希望得到反饋,以確認這些量化模型是否真的被使用且有用,這樣我就不會繼續上傳無人使用的量化模型了。
Q4_0_X_X量化模型
這些量化模型不適用於Metal(蘋果)卸載,僅適用於ARM芯片。
如果你使用的是ARM芯片,Q4_0_X_X量化模型將顯著提高運行速度。你可以查看 原始拉取請求 中的Q4_0_4_4速度比較。
要確定哪個量化模型最適合你的ARM芯片,你可以查看 AArch64 SoC特性(感謝EloyOn!)。
如何選擇文件
Artefact2 提供了一篇很棒的文章,帶有展示各種性能的圖表,你可以 點擊這裡查看。
首先,你需要確定你能夠運行多大的模型。這需要你瞭解自己的系統內存(RAM)和/或顯存(VRAM)大小。
如果你希望模型運行速度儘可能快,你需要將整個模型加載到GPU的顯存中。選擇文件大小比GPU總顯存小1 - 2GB的量化模型。
如果你追求絕對的最高質量,將系統內存和GPU顯存相加,然後選擇文件大小比這個總和小1 - 2GB的量化模型。
接下來,你需要決定是使用'I-quant'還是'K-quant'。
如果你不想考慮太多,選擇K-quant模型,格式為'QX_K_X',如Q5_K_M。
如果你想深入瞭解,可以查看這個非常有用的特性圖表:llama.cpp特性矩陣
一般來說,如果你希望量化級別低於Q4,並且使用的是cuBLAS(Nvidia)或rocBLAS(AMD),可以考慮I-quant模型,格式為IQX_X,如IQ3_M。這些是較新的模型,在相同大小下性能更好。
I-quant模型也可以在CPU和蘋果Metal上使用,但速度會比K-quant模型慢。因此,你需要在速度和性能之間做出權衡。
I-quant模型不兼容Vulcan(也是AMD的),所以如果你使用的是AMD顯卡,請仔細檢查你使用的是rocBLAS版本還是Vulcan版本。在撰寫本文時,LM Studio有一個支持ROCm的預覽版,其他推理引擎也有針對ROCm的特定版本。
📄 許可證
本項目採用 Apache-2.0許可證。
致謝
感謝kalomaze和Dampf協助創建imatrix校準數據集。
感謝ZeroWw啟發我對嵌入/輸出進行實驗。
如果你想支持我的工作,請訪問我的ko-fi頁面:https://ko-fi.com/bartowski