Kimi-Dev-72B-GGUFオープンソースモデル - 量子化版はストレージと計算の要件を削減し、実用的な選択肢です！

ホーム

Kimi Dev 72B GGUF

ubergarmによって開発

Kimi-Dev-72Bの量子化バージョンで、先進的な非線形最適量子化とマルチヘッド潜在注意力機構を採用し、ストレージと計算要件を削減します。

大規模言語モデルその他オープンソースライセンス:MIT #高圧缩率量子化 #大規模言語モデル #テキスト生成

ダウンロード数 2,780

リリース時間 : 6/19/2025

モデル概要

このモデルはKimi-Dev-72Bの量子化バージョンで、特定の量子化方法を通じて性能を保ちながらリソース消費を削減し、テキスト生成タスクに適しています。

モデル特徴

先進的な量子化方法

非線形最適量子化とマルチヘッド潜在注意力機構を採用し、モデルのストレージと計算要件を大幅に削減します。

高性能推論

高級ハードウェア構成では、バッチサイズ2kの場合、PPは約500トークン/秒、TGは約5トークン/秒です。

品質と速度のバランス

一連の実験的な量子化テストを通じて、品質と速度のバランスをうまく取りました。

モデル能力

テキスト生成

効率的な推論

量子化モデルサポート

使用事例

テキスト生成

効率的なテキスト生成

一定の性能を保ちながら、モデルのストレージと計算要件を削減し、効率的なテキスト生成が必要なシナリオに適しています。

バッチサイズ2kの場合、PPは約500トークン/秒、TGは約5トークン/秒です。

🚀 `ik_llama.cpp` imatrixによるKimi - Dev - 72Bの量子化バージョン

この量子化セットは、Kimi - Dev - 72Bモデルに対する量子化処理です。一定の性能を維持しながら、モデルの保存と計算に必要なリソースを削減することができます。特定のライブラリに依存しており、高度な量子化方法とマルチヘッド潜在注意力機構をサポートしています。

🚀 クイックスタート

この量子化セットは、高度な非線形最適量子化とマルチヘッド潜在注意力（MLA）をサポートするため、ik_llama.cpp のブランチバージョンを使用する必要があります。これらの大きなファイルをダウンロードして、メインラインのオリジナルの llama.cpp、ollama、LM Studio、KoboldCpp などで動作させることはできません！ただし、Nexesenex の croco.cpp（Kobold のブランチバージョン、未テスト）で動作する可能性があります。

# リポジトリをクローンする
git clone git@github.com:ikawrakow/ik_llama.cpp.git
cd ik_llama.cpp

# コンパイル（3090 以前のGPUの場合は、-DGGML_CUDA_IQK_FORCE_BF16=1 を追加してみてください）
cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_F16=ON -DGGML_SCHED_MAX_COPIES=1
cmake --build build --config Release -j $(nproc)

# 実行（スレッド数をCPUの物理コア数に設定し、mmap を使用すると起動が速くなります。ctx/ngl は必要に応じて調整してください）
./build/bin/llama-server \
    --model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
    --ctx-size 8192 \
    -ctk q8_0 -ctv q8_0 \
    -fa \
    --no-mmap \
    -ngl 48 \
    --threads 16 \
    --parallel 1 \
    --host 127.0.0.1 \
    --port 8080

✨ 主な機能

smol - IQ3_K 32.273 GiB (3.813 BPW)

f32 型のテンソルが 401 個あります。
q4_K 型のテンソルが 1 個あります（token_embd）。
q6_K 型のテンソルが 1 個あります（出力層 "head"）。
iq4_nl 型のテンソルが 80 個あります（down）。
iq3_k 型のテンソルが 320 個あります（q|o）（gate|up）。
iq4_k 型のテンソルが 160 個あります（k|v）。

📚 ドキュメント

ベンチマークテスト

速度

ハイエンドゲームホストのハードウェア構成：
- AMD 9950X プロセッサ
- オーバークロックされた無限ファブリック “gear 1” クロック
- 2 本の 48GB DDR5@6400 RAM（実測バンド幅約 87GB/s）
- 3090 TI FE 24GB VRAM、450 ワット（無制限）
バッチサイズ 2k の場合、PP は約 500 トークン/秒です。
RAM の入出力バンド幅に制限され、TG は約 5 トークン/秒です。

./build/bin/llama-sweep-bench \
    --model /mnt/models/ubergarm/Kimi-Dev-72B-GGUF/Kimi-Dev-72B-smol-IQ3_K.gguf \
    --ctx-size 6144 \
    -ctk q8_0 -ctv q8_0 \
    -fa \
    --no-mmap \
    -ub 2048 -b 2048 \
    -ngl 48 \
    --warmup-batch \
    --threads 16

ubergarm/Kimmy - Dev - 72B - smol - IQ3_K のテスト結果

PP	TG	N_KV	T_PP s	S_PP t/s	T_TG s	S_TG t/s
2048	512	0	3.925	521.77	103.624	4.94
2048	512	2048	4.058	504.63	105.265	4.86

品質

私は一連の実験的な量子化に対して困惑度テストを行い、このバージョンが品質と速度のバランスをうまく取っていると考えています。

困惑度グラフ

よくある質問（FAQ）

なぜ smol と呼ばれるのですか？ 上記の困惑度グラフを作成するために、似たサイズの量子化バージョンをたくさん作っていたときに、名前が思いつかなくなってしまったからです。笑
より大きな GGUF ファイルを作成する予定はありますか？ いいえ、メインラインの llama.cpp で動作する GGUF ファイルは、他の場所から入手できます。たとえば bartowski や bullerwins などです。
新しい EXL3 量子化バージョンはどこで入手できますか？ ArtusDev のコレクションを確認してください。
新しい iqK_kt QTIP Trellis スタイルの量子化バージョンはどうですか？ 最終的には関連する内容を公開する可能性がありますが、これらはまだ新しいもので、何か大きな変更があるかどうかを見るために少し待ちます。また、ffn_down テンソルの列次元が 256 で割り切れないため、変更がない限り iq4_nl しか使用できません。

📄 ライセンス

このプロジェクトは MIT ライセンスの下で提供されています。

🔗 参考資料

ik_llama.cpp

属性	详情
量子化者	ubergarm
タスクタイプ	テキスト生成
ベースモデル	moonshotai/Kimi - Dev - 72B
ライセンス	MIT
ベースモデルの関係	量子化バージョン
ラベル	code、imatrix、ik_llama.cpp