🚀 ik_llama.cpp
imatrixによるKimi - Dev - 72Bの量子化バージョン
この量子化セットは、Kimi - Dev - 72Bモデルに対する量子化処理です。一定の性能を維持しながら、モデルの保存と計算に必要なリソースを削減することができます。特定のライブラリに依存しており、高度な量子化方法とマルチヘッド潜在注意力機構をサポートしています。
🚀 クイックスタート
この量子化セットは、高度な非線形最適量子化とマルチヘッド潜在注意力(MLA)をサポートするため、ik_llama.cpp のブランチバージョンを使用する必要があります。これらの大きなファイルをダウンロードして、メインラインのオリジナルの llama.cpp、ollama、LM Studio、KoboldCpp などで動作させることはできません!ただし、Nexesenex の croco.cpp(Kobold のブランチバージョン、未テスト)で動作する可能性があります。
git clone git@github.com:ikawrakow/ik_llama.cpp.git
cd ik_llama.cpp
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON -DGGML_SCHED_MAX_COPIES=1
cmake --build build --config Release -j $(nproc)
./build/bin/llama-server \
--model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
--ctx-size 8192 \
-ctk q8_0 -ctv q8_0 \
-fa \
--no-mmap \
-ngl 48 \
--threads 16 \
--parallel 1 \
--host 127.0.0.1 \
--port 8080
✨ 主な機能
smol - IQ3_K 32.273 GiB (3.813 BPW)
- f32 型のテンソルが 401 個あります。
- q4_K 型のテンソルが 1 個あります(token_embd)。
- q6_K 型のテンソルが 1 個あります(出力層 "head")。
- iq4_nl 型のテンソルが 80 個あります(down)。
- iq3_k 型のテンソルが 320 個あります(q|o)(gate|up)。
- iq4_k 型のテンソルが 160 個あります(k|v)。
📚 ドキュメント
ベンチマークテスト
速度
- ハイエンドゲームホストのハードウェア構成:
- AMD 9950X プロセッサ
- オーバークロックされた無限ファブリック “gear 1” クロック
- 2 本の 48GB DDR5@6400 RAM(実測バンド幅約 87GB/s)
- 3090 TI FE 24GB VRAM、450 ワット(無制限)
- バッチサイズ 2k の場合、PP は約 500 トークン/秒です。
- RAM の入出力バンド幅に制限され、TG は約 5 トークン/秒です。
./build/bin/llama-sweep-bench \
--model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
--ctx-size 6144 \
-ctk q8_0 -ctv q8_0 \
-fa \
--no-mmap \
-ub 2048 -b 2048 \
-ngl 48 \
--warmup-batch \
--threads 16
ubergarm/Kimmy - Dev - 72B - smol - IQ3_K のテスト結果
PP |
TG |
N_KV |
T_PP s |
S_PP t/s |
T_TG s |
S_TG t/s |
2048 |
512 |
0 |
3.925 |
521.77 |
103.624 |
4.94 |
2048 |
512 |
2048 |
4.058 |
504.63 |
105.265 |
4.86 |
品質
私は一連の実験的な量子化に対して困惑度テストを行い、このバージョンが品質と速度のバランスをうまく取っていると考えています。

よくある質問(FAQ)
- なぜ
smol
と呼ばれるのですか?
上記の困惑度グラフを作成するために、似たサイズの量子化バージョンをたくさん作っていたときに、名前が思いつかなくなってしまったからです。笑
- より大きな GGUF ファイルを作成する予定はありますか?
いいえ、メインラインの llama.cpp で動作する GGUF ファイルは、他の場所から入手できます。たとえば bartowski や bullerwins などです。
- 新しい EXL3 量子化バージョンはどこで入手できますか?
ArtusDev のコレクションを確認してください。
- 新しい
iqK_kt
QTIP Trellis スタイルの量子化バージョンはどうですか?
最終的には関連する内容を公開する可能性がありますが、これらはまだ新しいもので、何か大きな変更があるかどうかを見るために少し待ちます。また、ffn_down
テンソルの列次元が 256 で割り切れないため、変更がない限り iq4_nl
しか使用できません。
📄 ライセンス
このプロジェクトは MIT ライセンスの下で提供されています。
🔗 参考資料
属性 |
详情 |
量子化者 |
ubergarm |
タスクタイプ |
テキスト生成 |
ベースモデル |
moonshotai/Kimi - Dev - 72B |
ライセンス |
MIT |
ベースモデルの関係 |
量子化バージョン |
ラベル |
code、imatrix、ik_llama.cpp |