🚀 ik_llama.cpp
imatrix对Kimi - Dev - 72B的量化版本
本量化集合是对Kimi - Dev - 72B模型进行的量化处理,其能够在保证一定性能的前提下,减少模型的存储和计算需求。它依赖特定的库来支持先进的量化方法和多头潜在注意力机制。
🚀 快速开始
本量化集合需要使用 ik_llama.cpp 的分支版本,以支持先进的非线性最优量化和多头潜在注意力(MLA)。请勿下载这些大文件并期望它们能在主线的原生 llama.cpp、ollama、LM Studio、KoboldCpp 等中运行!不过,它们可能在 Nexesenex 的 croco.cpp(Kobold 的分支版本,未测试)中运行。
git clone git@github.com:ikawrakow/ik_llama.cpp.git
cd ik_llama.cpp
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON -DGGML_SCHED_MAX_COPIES=1
cmake --build build --config Release -j $(nproc)
./build/bin/llama-server \
--model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
--ctx-size 8192 \
-ctk q8_0 -ctv q8_0 \
-fa \
--no-mmap \
-ngl 48 \
--threads 16 \
--parallel 1 \
--host 127.0.0.1 \
--port 8080
✨ 主要特性
smol - IQ3_K 32.273 GiB (3.813 BPW)
- 类型为 f32 的张量有 401 个
- 类型为 q4_K 的张量有 1 个(token_embd)
- 类型为 q6_K 的张量有 1 个(输出层 "head")
- 类型为 iq4_nl 的张量有 80 个(down)
- 类型为 iq3_k 的张量有 320 个(q|o)(gate|up)
- 类型为 iq4_k 的张量有 160 个(k|v)
📚 详细文档
基准测试
速度
- 高端游戏主机硬件配置:
- AMD 9950X 处理器
- 超频的无限织物 “gear 1” 时钟
- 2 条 48GB DDR5@6400 RAM(实测带宽约 87GB/s)
- 3090 TI FE 24GB VRAM,功率 450 瓦(无上限)
- 每批 2k 时,PP 约 500 个令牌/秒
- 受 RAM 输入/输出带宽限制,TG 约 5 个令牌/秒
./build/bin/llama-sweep-bench \
--model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
--ctx-size 6144 \
-ctk q8_0 -ctv q8_0 \
-fa \
--no-mmap \
-ub 2048 -b 2048 \
-ngl 48 \
--warmup-batch \
--threads 16
ubergarm/Kimmy - Dev - 72B - smol - IQ3_K 测试结果
PP |
TG |
N_KV |
T_PP s |
S_PP t/s |
T_TG s |
S_TG t/s |
2048 |
512 |
0 |
3.925 |
521.77 |
103.624 |
4.94 |
2048 |
512 |
2048 |
4.058 |
504.63 |
105.265 |
4.86 |
质量
我对一系列实验性量化进行了困惑度测试,认为这个版本在质量和速度之间取得了不错的平衡。

常见问题解答(FAQ)
- 为什么叫
smol
?
我在为上面的困惑度图制作一堆类似大小的量化版本时,想不出名字了,哈哈。
- 会制作更大的 GGUF 文件吗?
不会,你可以从其他地方获取适合主线 llama.cpp 的 GGUF 文件,例如 bartowski 和 bullerwins。
- 在哪里可以获取新的 EXL3 量化版本?
查看 ArtusDev 的集合。
- 新的
iqK_kt
QTIP Trellis 风格量化版本呢?
我最终可能会发布相关内容,但这些还很新,我会等一段时间,看看是否有重大变化再发布。另外,ffn_down
张量的列维度不能被 256 整除,所以除非有变化,否则只能使用 iq4_nl
。
📄 许可证
本项目采用 MIT 许可证。
🔗 参考资料
属性 |
详情 |
量化者 |
ubergarm |
任务类型 |
文本生成 |
基础模型 |
moonshotai/Kimi - Dev - 72B |
许可证 |
MIT |
基础模型关系 |
量化版本 |
标签 |
code、imatrix、ik_llama.cpp |