Kimi-Dev-72B-GGUF開源模型 - 量化版減少存儲計算需求，實用之選！

首頁

Kimi Dev 72B GGUF

由ubergarm開發

Kimi-Dev-72B的量化版本，採用先進的非線性最優量化和多頭潛在注意力機制，減少存儲和計算需求。

大型語言模型其他開源協議:MIT #高壓縮率量化 #大語言模型 #文本生成

下載量 2,780

發布時間 : 6/19/2025

模型概述

該模型是Kimi-Dev-72B的量化版本，通過特定的量化方法在保證性能的同時降低資源消耗，適用於文本生成任務。

模型特點

先進的量化方法

採用非線性最優量化和多頭潛在注意力機制，顯著減少模型存儲和計算需求。

高性能推理

在高端硬件配置下，每批2k時PP約500個令牌/秒，TG約5個令牌/秒。

平衡的質量與速度

通過一系列實驗性量化測試，在質量和速度之間取得了不錯的平衡。

模型能力

文本生成

高效推理

量化模型支持

使用案例

文本生成

高效文本生成

在保證一定性能的前提下，減少模型的存儲和計算需求，適用於需要高效文本生成的場景。

每批2k時PP約500個令牌/秒，TG約5個令牌/秒。

🚀 `ik_llama.cpp` imatrix對Kimi - Dev - 72B的量化版本

本量化集合是對Kimi - Dev - 72B模型進行的量化處理，其能夠在保證一定性能的前提下，減少模型的存儲和計算需求。它依賴特定的庫來支持先進的量化方法和多頭潛在注意力機制。

🚀 快速開始

本量化集合需要使用 ik_llama.cpp 的分支版本，以支持先進的非線性最優量化和多頭潛在注意力（MLA）。請勿下載這些大文件並期望它們能在主線的原生 llama.cpp、ollama、LM Studio、KoboldCpp 等中運行！不過，它們可能在 Nexesenex 的 croco.cpp（Kobold 的分支版本，未測試）中運行。

# 克隆倉庫
git clone git@github.com:ikawrakow/ik_llama.cpp.git
cd ik_llama.cpp

# 編譯（對於 3090 及更早的顯卡，可嘗試添加 -DGGML_CUDA_IQK_FORCE_BF16=1）
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON -DGGML_SCHED_MAX_COPIES=1
cmake --build build --config Release -j $(nproc)

# 運行（將線程數設置為 CPU 物理核心數，mmap 可加快啟動速度，根據需要調整 ctx/ngl）
./build/bin/llama-server \
    --model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
    --ctx-size 8192 \
    -ctk q8_0 -ctv q8_0 \
    -fa \
    --no-mmap \
    -ngl 48 \
    --threads 16 \
    --parallel 1 \
    --host 127.0.0.1 \
    --port 8080

✨ 主要特性

smol - IQ3_K 32.273 GiB (3.813 BPW)

類型為 f32 的張量有 401 個
類型為 q4_K 的張量有 1 個（token_embd）
類型為 q6_K 的張量有 1 個（輸出層 "head"）
類型為 iq4_nl 的張量有 80 個（down）
類型為 iq3_k 的張量有 320 個（q|o）（gate|up）
類型為 iq4_k 的張量有 160 個（k|v）

📚 詳細文檔

基準測試

速度

高端遊戲主機硬件配置：
- AMD 9950X 處理器
- 超頻的無限織物 “gear 1” 時鐘
- 2 條 48GB DDR5@6400 RAM（實測帶寬約 87GB/s）
- 3090 TI FE 24GB VRAM，功率 450 瓦（無上限）
每批 2k 時，PP 約 500 個令牌/秒
受 RAM 輸入/輸出帶寬限制，TG 約 5 個令牌/秒

./build/bin/llama-sweep-bench \
    --model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
    --ctx-size 6144 \
    -ctk q8_0 -ctv q8_0 \
    -fa \
    --no-mmap \
    -ub 2048 -b 2048 \
    -ngl 48 \
    --warmup-batch \
    --threads 16

ubergarm/Kimmy - Dev - 72B - smol - IQ3_K 測試結果

PP	TG	N_KV	T_PP s	S_PP t/s	T_TG s	S_TG t/s
2048	512	0	3.925	521.77	103.624	4.94
2048	512	2048	4.058	504.63	105.265	4.86

質量

我對一系列實驗性量化進行了困惑度測試，認為這個版本在質量和速度之間取得了不錯的平衡。

困惑度圖表

常見問題解答（FAQ）

為什麼叫 smol？ 我在為上面的困惑度圖製作一堆類似大小的量化版本時，想不出名字了，哈哈。
會製作更大的 GGUF 文件嗎？ 不會，你可以從其他地方獲取適合主線 llama.cpp 的 GGUF 文件，例如 bartowski 和 bullerwins。
在哪裡可以獲取新的 EXL3 量化版本？ 查看 ArtusDev 的集合。
新的 iqK_kt QTIP Trellis 風格量化版本呢？ 我最終可能會發布相關內容，但這些還很新，我會等一段時間，看看是否有重大變化再發布。另外，ffn_down 張量的列維度不能被 256 整除，所以除非有變化，否則只能使用 iq4_nl。

📄 許可證

本項目採用 MIT 許可證。

🔗 參考資料

ik_llama.cpp

屬性	詳情
量化者	ubergarm
任務類型	文本生成
基礎模型	moonshotai/Kimi - Dev - 72B
許可證	MIT
基礎模型關係	量化版本
標籤	code、imatrix、ik_llama.cpp