Qwen2.5-Coder-14B-Instruct-abliterated-GGUF開源編碼模型多量化類型適配不同硬件

首頁

Qwen2.5 Coder 14B Instruct Abliterated GGUF

由bartowski開發

Qwen2.5-Coder-14B-Instruct-abliterated的量化版本，支持多種量化類型，適用於不同硬件條件。

大型語言模型開源協議:Apache-2.0 #代碼生成優化 #多量化適配 #低資源部署

下載量 1,240

發布時間 : 11/13/2024

模型概述

這是一個基於Qwen2.5-Coder-14B-Instruct-abliterated模型的量化版本，旨在通過不同量化方法優化模型在不同硬件上的運行效率和性能。

模型特點

多種量化選項

提供從f16到Q4_K_M等多種量化類型，滿足不同硬件需求。

優化嵌入/輸出權重

部分量化模型採用Q8_0量化嵌入和輸出權重，可能提高模型質量。

ARM芯片優化

Q4_0_X_X量化類型專為ARM芯片優化，顯著提高運行速度。

模型能力

代碼生成

代碼理解

文本生成

使用案例

軟件開發

代碼補全

在開發環境中提供代碼補全建議。

提高開發效率

代碼解釋

解釋複雜代碼片段的功能和邏輯。

幫助理解現有代碼

🚀 Qwen2.5-Coder-14B-Instruct-abliterated的Llamacpp imatrix量化版本

本項目是對Qwen2.5-Coder-14B-Instruct-abliterated模型進行量化處理的成果。它藉助特定工具和方法，生成了不同量化類型的模型文件，以滿足不同用戶在性能、質量和資源使用上的需求。用戶可以根據自身設備的硬件條件，如RAM、VRAM的大小，選擇合適的量化模型文件進行下載和使用。

🚀 快速開始

量化信息

使用 llama.cpp 版本 b4058 進行量化。原始模型：https://huggingface.co/huihui-ai/Qwen2.5-Coder-14B-Instruct-abliterated 所有量化模型均使用imatrix選項，並採用來自此處的數據集。

運行環境

可以在 LM Studio 中運行這些量化模型。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 安裝指南

安裝huggingface-cli

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載特定文件

然後，你可以指定要下載的特定文件：

huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型大小超過50GB，它會被拆分成多個文件。要將它們全部下載到本地文件夾，可以運行：

huggingface-cli download bartowski/Qwen2.5-Coder-14B-Instruct-abliterated-GGUF --include "Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如Qwen2.5-Coder-14B-Instruct-abliterated-Q8_0），也可以直接下載到當前目錄（./）。

📚 詳細文檔

下載文件選擇

屬性	詳情
文件名	點擊鏈接下載
量化類型	f16、Q8_0、Q6_K_L等多種類型
文件大小	從4.70GB到29.55GB不等
拆分情況	部分大文件會拆分，多數為false
描述	包含不同質量和性能的說明

嵌入/輸出權重

部分量化模型（如Q3_K_XL、Q4_K_L等）採用了標準量化方法，但將嵌入和輸出權重量化為Q8_0，而非默認值。有人認為這樣可以提高質量，也有人覺得沒有區別。如果你使用了這些模型，請分享你的使用結果，我希望瞭解這些模型是否真正有用，以免上傳無人使用的量化模型。

Q4_0_X_X量化類型

這些量化類型 不適用於 Metal（蘋果）卸載，僅適用於ARM芯片。如果你使用的是ARM芯片，Q4_0_X_X量化類型會顯著提高速度。你可以查看原始拉取請求中的Q4_0_4_4速度比較。要確定哪種量化類型最適合你的ARM芯片，可以查看 AArch64 SoC特性（感謝EloyOn！）。

如何選擇文件

Artefact2 提供了一份很棒的文章，帶有展示各種性能的圖表，點擊查看。首先，你需要確定可以運行的模型大小，這需要了解你擁有的系統內存（RAM）和/或顯存（VRAM）大小。

追求最快速度：如果你希望模型運行儘可能快，應將整個模型放入GPU的顯存中。選擇文件大小比GPU總顯存小1 - 2GB的量化模型。
追求最高質量：如果你追求絕對的最高質量，將系統內存和GPU顯存相加，然後選擇文件大小比該總和小1 - 2GB的量化模型。接下來，你需要決定是否使用“I量化”或“K量化”。
不想過多考慮：選擇K量化模型，格式為 'QX_K_X'，如Q5_K_M。
深入研究：你可以查看這個非常有用的特性圖表：llama.cpp特性矩陣。一般來說，如果你目標是低於Q4的量化，並且使用cuBLAS（英偉達）或rocBLAS（AMD），可以考慮I量化模型，格式為IQX_X，如IQ3_M。這些模型較新，在相同大小下性能更好。I量化模型也可以在CPU和蘋果Metal上使用，但速度會比K量化模型慢，因此你需要在速度和性能之間做出權衡。I量化模型 不兼容 Vulcan（也是AMD），所以如果你使用AMD顯卡，請仔細檢查是使用rocBLAS版本還是Vulcan版本。撰寫本文時，LM Studio有支持ROCm的預覽版，其他推理引擎也有針對ROCm的特定版本。