🚀 ik_llama.cpp
imatrix對Kimi - Dev - 72B的量化版本
本量化集合是對Kimi - Dev - 72B模型進行的量化處理,其能夠在保證一定性能的前提下,減少模型的存儲和計算需求。它依賴特定的庫來支持先進的量化方法和多頭潛在注意力機制。
🚀 快速開始
本量化集合需要使用 ik_llama.cpp 的分支版本,以支持先進的非線性最優量化和多頭潛在注意力(MLA)。請勿下載這些大文件並期望它們能在主線的原生 llama.cpp、ollama、LM Studio、KoboldCpp 等中運行!不過,它們可能在 Nexesenex 的 croco.cpp(Kobold 的分支版本,未測試)中運行。
git clone git@github.com:ikawrakow/ik_llama.cpp.git
cd ik_llama.cpp
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON -DGGML_SCHED_MAX_COPIES=1
cmake --build build --config Release -j $(nproc)
./build/bin/llama-server \
--model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
--ctx-size 8192 \
-ctk q8_0 -ctv q8_0 \
-fa \
--no-mmap \
-ngl 48 \
--threads 16 \
--parallel 1 \
--host 127.0.0.1 \
--port 8080
✨ 主要特性
smol - IQ3_K 32.273 GiB (3.813 BPW)
- 類型為 f32 的張量有 401 個
- 類型為 q4_K 的張量有 1 個(token_embd)
- 類型為 q6_K 的張量有 1 個(輸出層 "head")
- 類型為 iq4_nl 的張量有 80 個(down)
- 類型為 iq3_k 的張量有 320 個(q|o)(gate|up)
- 類型為 iq4_k 的張量有 160 個(k|v)
📚 詳細文檔
基準測試
速度
- 高端遊戲主機硬件配置:
- AMD 9950X 處理器
- 超頻的無限織物 “gear 1” 時鐘
- 2 條 48GB DDR5@6400 RAM(實測帶寬約 87GB/s)
- 3090 TI FE 24GB VRAM,功率 450 瓦(無上限)
- 每批 2k 時,PP 約 500 個令牌/秒
- 受 RAM 輸入/輸出帶寬限制,TG 約 5 個令牌/秒
./build/bin/llama-sweep-bench \
--model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
--ctx-size 6144 \
-ctk q8_0 -ctv q8_0 \
-fa \
--no-mmap \
-ub 2048 -b 2048 \
-ngl 48 \
--warmup-batch \
--threads 16
ubergarm/Kimmy - Dev - 72B - smol - IQ3_K 測試結果
PP |
TG |
N_KV |
T_PP s |
S_PP t/s |
T_TG s |
S_TG t/s |
2048 |
512 |
0 |
3.925 |
521.77 |
103.624 |
4.94 |
2048 |
512 |
2048 |
4.058 |
504.63 |
105.265 |
4.86 |
質量
我對一系列實驗性量化進行了困惑度測試,認為這個版本在質量和速度之間取得了不錯的平衡。

常見問題解答(FAQ)
- 為什麼叫
smol
?
我在為上面的困惑度圖製作一堆類似大小的量化版本時,想不出名字了,哈哈。
- 會製作更大的 GGUF 文件嗎?
不會,你可以從其他地方獲取適合主線 llama.cpp 的 GGUF 文件,例如 bartowski 和 bullerwins。
- 在哪裡可以獲取新的 EXL3 量化版本?
查看 ArtusDev 的集合。
- 新的
iqK_kt
QTIP Trellis 風格量化版本呢?
我最終可能會發布相關內容,但這些還很新,我會等一段時間,看看是否有重大變化再發布。另外,ffn_down
張量的列維度不能被 256 整除,所以除非有變化,否則只能使用 iq4_nl
。
📄 許可證
本項目採用 MIT 許可證。
🔗 參考資料
屬性 |
詳情 |
量化者 |
ubergarm |
任務類型 |
文本生成 |
基礎模型 |
moonshotai/Kimi - Dev - 72B |
許可證 |
MIT |
基礎模型關係 |
量化版本 |
標籤 |
code、imatrix、ik_llama.cpp |