72B-Qwen2.5-Kunou-v1-GGUF開源模型 - 支持本地推理的實用量化版本

首頁

72B Qwen2.5 Kunou V1 GGUF

由bartowski開發

基於Qwen2.5-72B-Instruct的量化版本，採用llama.cpp進行多種量化處理，適用於本地推理

大型語言模型開源協議:其他 #72B大模型 #多級量化適配 #ARM優化推理

下載量 319

發布時間 : 12/11/2024

模型概述

這是一個72B參數規模的大型語言模型量化版本，支持文本生成任務，採用Qwen2.5架構，適用於多種硬件環境

模型特點

多種量化選項

提供從Q2到Q8共20多種量化版本，適應不同硬件配置和性能需求

imatrix量化

使用llama.cpp的imatrix選項進行量化，提高量化質量

ARM優化

提供專門針對ARM設備的優化量化版本，支持在線權重重打包

高質量推薦

明確標註推薦使用的量化版本，幫助用戶選擇

模型能力

文本生成

對話系統

指令跟隨

使用案例

本地AI應用

本地聊天助手

在個人電腦上運行高質量的對話AI

可在LM Studio等本地環境中流暢運行

內容創作

用於生成各種類型的文本內容

🚀 72B-Qwen2.5-Kunou-v1量化模型

本項目提供了72B-Qwen2.5-Kunou-v1模型的量化版本，使用特定工具和方法進行量化處理，方便不同硬件條件下的使用。通過選擇合適的量化類型，用戶可以在性能和質量之間取得平衡。

🚀 快速開始

運行環境

可以在 LM Studio 中運行這些量化模型。

提示格式

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

✨ 主要特性

多種量化類型：提供了豐富的量化類型供用戶選擇，如Q8_0、Q6_K、Q5_K_M等，以滿足不同的性能和質量需求。
ARM優化：部分量化類型針對ARM芯片進行了優化，可顯著提升運行速度。
在線重新打包：通過特定的PR努力，支持在線重新打包權重，方便在ARM設備上使用。

📦 安裝指南

安裝huggingface-cli

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載單個文件

如果你想下載單個文件，可以使用以下命令：

huggingface-cli download bartowski/72B-Qwen2.5-Kunou-v1-GGUF --include "72B-Qwen2.5-Kunou-v1-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型大於50GB，它會被拆分成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/72B-Qwen2.5-Kunou-v1-GGUF --include "72B-Qwen2.5-Kunou-v1-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如72B-Qwen2.5-Kunou-v1-Q8_0），也可以將它們全部下載到當前目錄（./）。

💻 使用示例

基礎用法

按照上述提示格式，在 LM Studio 中加載相應的量化模型文件，即可開始使用。

📚 詳細文檔

量化模型下載列表

文件名	量化類型	文件大小	是否拆分	描述
72B-Qwen2.5-Kunou-v1-Q8_0.gguf	Q8_0	77.26GB	true	極高質量，通常不需要，但為最大可用量化類型。
72B-Qwen2.5-Kunou-v1-Q6_K.gguf	Q6_K	64.35GB	true	非常高質量，接近完美，推薦。
72B-Qwen2.5-Kunou-v1-Q5_K_M.gguf	Q5_K_M	54.45GB	true	高質量，推薦。
72B-Qwen2.5-Kunou-v1-Q5_K_S.gguf	Q5_K_S	51.38GB	true	高質量，推薦。
72B-Qwen2.5-Kunou-v1-Q4_K_L.gguf	Q4_K_L	48.34GB	false	使用Q8_0進行嵌入和輸出權重。質量良好，推薦。
72B-Qwen2.5-Kunou-v1-Q4_K_M.gguf	Q4_K_M	47.42GB	false	質量良好，是大多數用例的默認大小，推薦。
72B-Qwen2.5-Kunou-v1-Q4_K_S.gguf	Q4_K_S	43.89GB	false	質量稍低，但節省更多空間，推薦。
72B-Qwen2.5-Kunou-v1-Q4_0.gguf	Q4_0	41.38GB	false	舊格式，支持為ARM CPU推理進行在線重新打包。
72B-Qwen2.5-Kunou-v1-IQ4_NL.gguf	IQ4_NL	41.32GB	false	類似於IQ4_XS，但稍大。支持為ARM進行在線重新打包權重。
72B-Qwen2.5-Kunou-v1-Q4_0_8_8.gguf	Q4_0_8_8	41.23GB	false	針對ARM和AVX推理進行優化。ARM需要'sve'支持（詳見下文）。請勿在Mac上使用。
72B-Qwen2.5-Kunou-v1-Q4_0_4_8.gguf	Q4_0_4_8	41.23GB	false	針對ARM推理進行優化。需要'i8mm'支持（詳見下文）。請勿在Mac上使用。
72B-Qwen2.5-Kunou-v1-Q4_0_4_4.gguf	Q4_0_4_4	41.23GB	false	針對ARM推理進行優化。應適用於所有ARM芯片，不適用於GPU。請勿在Mac上使用。
72B-Qwen2.5-Kunou-v1-Q3_K_XL.gguf	Q3_K_XL	40.60GB	false	使用Q8_0進行嵌入和輸出權重。質量較低但可用，適合低內存情況。
72B-Qwen2.5-Kunou-v1-IQ4_XS.gguf	IQ4_XS	39.71GB	false	質量不錯，比Q4_K_S小且性能相似，推薦。
72B-Qwen2.5-Kunou-v1-Q3_K_L.gguf	Q3_K_L	39.51GB	false	質量較低但可用，適合低內存情況。
72B-Qwen2.5-Kunou-v1-Q3_K_M.gguf	Q3_K_M	37.70GB	false	低質量。
72B-Qwen2.5-Kunou-v1-IQ3_M.gguf	IQ3_M	35.50GB	false	中低質量，新方法，性能與Q3_K_M相當。
72B-Qwen2.5-Kunou-v1-Q3_K_S.gguf	Q3_K_S	34.49GB	false	低質量，不推薦。
72B-Qwen2.5-Kunou-v1-IQ3_XXS.gguf	IQ3_XXS	31.85GB	false	質量較低，新方法，性能與Q3量化類型相當。
72B-Qwen2.5-Kunou-v1-Q2_K_L.gguf	Q2_K_L	31.03GB	false	使用Q8_0進行嵌入和輸出權重。質量非常低，但出人意料地可用。
72B-Qwen2.5-Kunou-v1-Q2_K.gguf	Q2_K	29.81GB	false	質量非常低，但出人意料地可用。
72B-Qwen2.5-Kunou-v1-IQ2_M.gguf	IQ2_M	29.34GB	false	質量相對較低，使用最先進技術，出人意料地可用。
72B-Qwen2.5-Kunou-v1-IQ2_S.gguf	IQ2_S	27.94GB	false	質量低，使用最先進技術，可用。
72B-Qwen2.5-Kunou-v1-IQ2_XS.gguf	IQ2_XS	27.06GB	false	質量低，使用最先進技術，可用。
72B-Qwen2.5-Kunou-v1-IQ2_XXS.gguf	IQ2_XXS	25.49GB	false	質量非常低，使用最先進技術，可用。
72B-Qwen2.5-Kunou-v1-IQ1_M.gguf	IQ1_M	23.74GB	false	質量極低，不推薦。

嵌入/輸出權重說明

部分量化類型（如Q3_K_XL、Q4_K_L等）採用標準量化方法，將嵌入和輸出權重量化為Q8_0，而非默認值。

Q4_0_X_X信息

新特性：由於此PR 中為在線重新打包權重所做的努力，如果你為ARM設備編譯了llama.cpp，現在可以直接使用Q4_0。

同樣，如果你想獲得稍好的性能，可以使用IQ4_NL，這得益於此PR，它也會為ARM重新打包權重，不過目前僅支持4_4。加載時間可能會較慢，但總體速度會提高。

這些量化類型不適用於Metal（蘋果）或GPU（英偉達/AMD/英特爾）卸載，僅適用於ARM芯片（以及某些AVX2/AVX512 CPU）。

如果你使用的是ARM芯片，Q4_0_X_X量化類型將顯著提升速度。查看原始拉取請求上的Q4_0_4_4速度比較。

要檢查哪種量化類型最適合你的ARM芯片，可以查看 AArch64 SoC特性（感謝EloyOn！）。

如果你使用的是支持AVX2或AVX512的CPU（通常是服務器CPU和AMD最新的Zen5 CPU），並且不進行GPU卸載，Q4_0_8_8也可能提供不錯的速度：

點擊查看AVX2系統（EPYC7702）上的基準測試

| 模型 | 大小 | 參數 | 後端 | 線程數 | 測試類型 | 每秒令牌數 | 與Q4_0相比 | | ------------------------------ | ---------: | ---------: | ---------- | ------: | ------------: | -------------------: |-------------: | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp512 | 204.03 ± 1.03 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp1024 | 282.92 ± 0.19 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | pp2048 | 259.49 ± 0.44 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg128 | 39.12 ± 0.27 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg256 | 39.31 ± 0.69 | 100% | | qwen2 3B Q4_0 | 1.70 GiB | 3.09 B | CPU | 64 | tg512 | 40.52 ± 0.03 | 100% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp512 | 301.02 ± 1.74 | 147% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp1024 | 287.23 ± 0.20 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | pp2048 | 262.77 ± 1.81 | 101% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg128 | 18.80 ± 0.99 | 48% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg256 | 24.46 ± 3.04 | 83% | | qwen2 3B Q4_K_M | 1.79 GiB | 3.09 B | CPU | 64 | tg512 | 36.32 ± 3.59 | 90% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp512 | 271.71 ± 3.53 | 133% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp1024 | 279.86 ± 45.63 | 100% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | pp2048 | 320.77 ± 5.00 | 124% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg128 | 43.51 ± 0.05 | 111% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg256 | 43.35 ± 0.09 | 110% | | qwen2 3B Q4_0_8_8 | 1.69 GiB | 3.09 B | CPU | 64 | tg512 | 42.60 ± 0.31 | 105% |

Q4_0_8_8在提示處理方面有顯著提升，在文本生成方面有小幅提升。