モデル概要
モデル特徴
モデル能力
使用事例
🚀 kanana-1.5-8b-instruct-2505 GGUFモデル
このモデルは、大規模言語モデルに関するもので、特に超低ビット量子化技術を用いることで、メモリ効率を大幅に向上させています。また、様々なモデルフォーマットが用意されており、ハードウェアの能力やメモリ制約に応じて最適なモデルを選択できます。
🚀 クイックスタート
このセクションでは、kanana-1.5-8b-instruct-2505 GGUFモデルの概要と、主な特徴について説明します。
✨ 主な機能
モデル生成詳細
このモデルは、llama.cpp のコミット f5cd27b7
を使用して生成されました。
超低ビット量子化(IQ-DynamicGate、1 - 2ビット)
最新の量子化手法では、超低ビットモデル(1 - 2ビット)に対して 精度適応型量子化 を導入しており、Llama-3-8B でのベンチマーク検証により精度向上が確認されています。このアプローチでは、レイヤーごとの戦略を用いて、極限のメモリ効率を維持しながら精度を保つことができます。
ベンチマークの条件
すべてのテストは Llama-3-8B-Instruct を使用して行われ、以下の条件で実施されました。
- 標準のパープレキシティ評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化で同じプロンプトセット
手法
- 動的精度割り当て
- 最初と最後の25%のレイヤー → IQ4_XS(選択されたレイヤー)
- 中央の50% → IQ2_XXS/IQ3_S(効率を向上)
- 重要コンポーネントの保護
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準の1 - 2ビット量子化と比較して、誤差伝播を38%削減
量子化性能比較(Llama-3-8B)
量子化方式 | 標準PPL | DynamicGate PPL | ΔPPL | 標準サイズ | DGサイズ | Δサイズ | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
キー:
- PPL = パープレキシティ(低いほど良い)
- ΔPPL = 標準からDynamicGateへのPPLの変化率
- 速度 = 推論時間(CPU avx2、2048トークンコンテキスト)
- サイズの違いは混合量子化のオーバーヘッドを反映
主な改善点:
- IQ1_M はパープレキシティを43.9%大幅に削減(27.46 → 15.41)
- IQ2_S は0.2GBのサイズ増加でパープレキシティを36.9%削減
- IQ1_S は1ビット量子化でありながら、39.7%の精度向上を維持
トレードオフ:
- すべてのバリアントでサイズがわずかに増加(0.1 - 0.3GB)
- 推論速度はほぼ同等(差は5%未満)
これらのモデルを使用するタイミング
- GPU VRAMにモデルを収める場合
- メモリ制約のあるデプロイメント
- CPUやエッジデバイス で1 - 2ビットの誤差が許容される場合
- 超低ビット量子化の研究
適切なモデルフォーマットの選択
正しいモデルフォーマットを選択するには、ハードウェアの能力 と メモリ制約 を考慮する必要があります。
BF16(Brain Float 16) - BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を目的とした16ビット浮動小数点形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現します。
- ハードウェアが BF16アクセラレーション をサポートしている場合に推奨(デバイスの仕様を確認)。
- FP32と比較して、メモリ使用量を削減した 高性能推論 に最適。
BF16を使用する場合:
- ハードウェアがネイティブの BF16サポート を持っている場合(例:新しいGPU、TPU)
- メモリを節約しながら 高精度 が必要な場合
- モデルを別の形式に再量子化する予定の場合
BF16を避ける場合:
- ハードウェアがBF16をサポートしていない場合(FP32にフォールバックし、低速になる可能性がある)
- BF16最適化を持たない古いデバイスとの互換性が必要な場合
F16(Float 16) - BF16よりも広くサポートされている
- 16ビット浮動小数点形式で、高精度 を持ち、BF16よりも値の範囲が狭い。
- ほとんどのデバイスで FP16アクセラレーション をサポートしている場合に動作します(多くのGPUや一部のCPUを含む)。
- BF16よりもわずかに数値精度が低いが、一般的に推論には十分です。
F16を使用する場合:
- ハードウェアが FP16 をサポートしているが、BF16 をサポートしていない場合
- 速度、メモリ使用量、精度のバランスが必要な場合
- GPU またはFP16計算に最適化された他のデバイスで実行する場合
F16を避ける場合:
- デバイスがネイティブの FP16サポート を持っていない場合(予想よりも低速になる可能性がある)
- メモリ制約がある場合
量子化モデル(Q4_K、Q6_K、Q8など) - CPUと低VRAMでの推論に適しています
量子化により、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持することができます。
- 低ビットモデル(Q4_K) - 最小限のメモリ使用量 に最適ですが、精度が低い場合があります。
- 高ビットモデル(Q6_K、Q8_0) - より高い精度 を提供しますが、より多くのメモリを必要とします。
量子化モデルを使用する場合:
- CPU で推論を実行し、最適化されたモデルが必要な場合
- デバイスの VRAMが少なく、フル精度のモデルをロードできない場合
- 適度な精度を維持しながら メモリ使用量を削減 したい場合
量子化モデルを避ける場合:
- 最大精度 が必要な場合(フル精度のモデルの方が適しています)
- ハードウェアに十分なVRAMがあり、より高精度の形式(BF16/F16)が使用できる場合
超低ビット量子化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
これらのモデルは、極限のメモリ効率 を追求するために最適化されており、低電力デバイス や 大規模デプロイメント でメモリが重要な制約となる場合に最適です。
- IQ3_XS:超低ビット量子化(3ビット)で、極限のメモリ効率 を実現。
- 使用例:Q4_Kでも大きすぎる 超低メモリデバイス に最適。
- トレードオフ:高ビット量子化と比較して精度が低い。
- IQ3_S:最大のメモリ効率を実現するための小さなブロックサイズ。
- 使用例:IQ3_XS が過度に激しい場合の 低メモリデバイス に最適。
- IQ3_M:IQ3_S よりも精度が高い中程度のブロックサイズ。
- 使用例:IQ3_S が制限的すぎる 低メモリデバイス に適しています。
- Q4_K:ブロック単位の最適化により精度が向上した4ビット量子化。
- 使用例:Q6_K が大きすぎる 低メモリデバイス に最適。
- Q4_0:ARMデバイス 用に最適化された純粋な4ビット量子化。
- 使用例:ARMベースのデバイス または 低メモリ環境 に最適。
モデルフォーマット選択のまとめ
モデルフォーマット | 精度 | メモリ使用量 | デバイス要件 | 最適な使用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応のGPU/CPU | メモリを削減した高速推論 |
F16 | 高 | 高 | FP16対応のデバイス | BF16が利用できない場合のGPU推論 |
Q4_K | 中低 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
Q6_K | 中 | 中程度 | より多くのメモリを持つCPU | 量子化されたままでも精度が高い |
Q8_0 | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最も高い精度 |
IQ3_XS | 非常に低 | 非常に低 | 超低メモリデバイス | 極限のメモリ効率と低い精度 |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppはARMデバイス用に最適化できます |
含まれるファイルと詳細
kanana-1.5-8b-instruct-2505-bf16.gguf
- モデルの重みが BF16 で保存されています。
- モデルを別の形式に 再量子化 する場合に使用します。
- デバイスが BF16アクセラレーション をサポートしている場合に最適。
kanana-1.5-8b-instruct-2505-f16.gguf
- モデルの重みが F16 で保存されています。
- デバイスが FP16 をサポートしている場合、特にBF16が利用できない場合に使用します。
kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf
- 出力と埋め込み は BF16 のままです。
- 他のすべてのレイヤーは Q8_0 に量子化されています。
- デバイスが BF16 をサポートしており、量子化されたバージョンが必要な場合に使用します。
kanana-1.5-8b-instruct-2505-f16-q8_0.gguf
- 出力と埋め込み は F16 のままです。
- 他のすべてのレイヤーは Q8_0 に量子化されています。
kanana-1.5-8b-instruct-2505-q4_k.gguf
- 出力と埋め込み は Q8_0 に量子化されています。
- 他のすべてのレイヤーは Q4_K に量子化されています。
- メモリが制限された CPU推論 に適しています。
kanana-1.5-8b-instruct-2505-q4_k_s.gguf
- 最も小さい Q4_K バリアントで、精度を犠牲にしてメモリ使用量を削減しています。
- 非常に低メモリのセットアップ に最適。
kanana-1.5-8b-instruct-2505-q6_k.gguf
- 出力と埋め込み は Q8_0 に量子化されています。
- 他のすべてのレイヤーは Q6_K に量子化されています。
kanana-1.5-8b-instruct-2505-q8_0.gguf
- 完全に Q8 量子化されたモデルで、精度が高い。
- より多くのメモリ が必要ですが、より高い精度を提供します。
kanana-1.5-8b-instruct-2505-iq3_xs.gguf
- IQ3_XS 量子化で、極限のメモリ効率 を実現。
- 超低メモリデバイス に最適。
kanana-1.5-8b-instruct-2505-iq3_m.gguf
- IQ3_M 量子化で、中程度のブロックサイズで精度が向上。
- 低メモリデバイス に適しています。
kanana-1.5-8b-instruct-2505-q4_0.gguf
- 純粋な Q4_0 量子化で、ARMデバイス 用に最適化されています。
- 低メモリ環境 に最適。
- 精度を向上させるにはIQ4_NLを選択することをおすすめします。
モデルが役立つ場合
もしこれらのモデルが役に立った場合は、「いいね」をクリックしていただけると助かります!また、量子対応のセキュリティチェック を備えた AI搭載のネットワークモニターアシスタント のテストに協力していただけると幸いです。
テスト方法
- AIアシスタントのタイプ を選択します。
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginfaceオープンソース)TestLLM
(実験的なCPU専用)
テスト内容
AIネットワークモニタリングのための小規模なオープンソースモデルの限界を追求しています。具体的には、以下のことをテストしています。
- ライブネットワークサービスに対する 関数呼び出し
- モデルが次のタスクを処理できる最小サイズ
- 自動化された Nmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク
TestLLM - 現在の実験的モデル(2つのCPUスレッドでのllama.cpp)
- ゼロコンフィギュレーションセットアップ
- 30秒のロード時間(推論は遅いが APIコストがかからない)
- 協力を求めています! エッジデバイスAIに興味がある方は、一緒に協力しましょう!
他のアシスタント
- TurboLLM - gpt-4o-mini を使用して、以下のことができます。
- カスタムコマンドプロセッサを作成して、Free Network Monitor Agentsで.NETコードを実行する
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト(Nmap/Metasploit)
- ログインするか、統合されたAIアシスタント付きのFree Network Monitor Agentをダウンロード することで、より多くのトークンを取得できます。
- HugLLM - 最新のオープンソースモデル
- Hugging Face Inference APIで実行されます。
テストできるコマンドの例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)"
注:.NETコードを実行するには、Free Network Monitor Agentをインストールする必要があります。これは非常に柔軟で強力な機能ですが、注意して使用してください!
ニュース
2025/05/23
:Kanana 1.5
モデルに関する ブログ記事 を公開し、HFモデルの重み をリリースしました。2025/02/27
:技術レポート と HFモデルの重み をリリースしました。2025/01/10
:Kanana Nano
モデルの開発に関する ブログ記事 を公開しました。2024/11/14
:Kanana
モデルの開発に関するブログ記事(事前学習、事後学習)を公開しました。2024/11/06
:Kanana
モデルの開発に関する プレゼンテーションビデオ を公開しました。
Kanana 1.5
Kanana 1.5
は、Kananaモデルファミリーの新しいバージョンで、前のバージョンと比較して、コーディング、数学、関数呼び出し機能 が大幅に向上しています。これにより、より複雑な実世界の問題に対して幅広く適用することができます。この新しいバージョンでは、ネイティブで 最大32Kトークンの長さを処理 でき、YaRNを使用することで 最大128Kトークン を処理できるようになりました。これにより、大規模なドキュメントや長い会話を処理する際にも一貫性を保つことができます。さらに、洗練された事後学習プロセス により、より自然で正確な会話を実現しています。
⚠️ 重要提示
事前学習データと事後学習データのどちらにも、Kakaoのユーザーデータは含まれていません。
性能
ベースモデル評価
モデル | MMLU | KMMLU | HAERAE | HumanEval | MBPP | GSM8K |
---|---|---|---|---|---|---|
Kanana-1.5-8B | 64.24 | 48.94 | 82.77 | 61.59 | 57.80 | 63.53 |
Kanana-8B | 64.22 | 48.30 | 83.41 | 40.24 | 51.40 | 57.09 |
命令モデル評価
モデル | MT-Bench | KoMT-Bench | IFEval | HumanEval+ | MBPP+ | GSM8K (0-shot) | MATH | MMLU (0-shot, CoT) | KMMLU (0-shot, CoT) | FunctionChatBench |
---|---|---|---|---|---|---|---|---|---|---|
Kanana-1.5-8B* | 7.76 | 7.63 | 80.11 | 76.83 | 67.99 | 87.64 | 67.54 | 68.82 | 48.28 | 58.00 |
Kanana-8B | 7.13 | 6.92 | 76.91 | 62.20 | 43.92 | 79.23 | 37.68 | 66.50 | 47.43 | 17.37 |
⚠️ 重要提示
* Apache 2.0の下でリリースされたモデルは、他のモデルと比較して最新バージョンで学習されています。
32K以上のトークン長の処理
現在、HuggingFaceにアップロードされている config.json
は、32,768トークン以下の長さに設定されています。これを超えるトークンを処理するには、YaRNを適用する必要があります。以下のパラメータを config.json
に追加することで、YaRNを適用して最大128Kトークンのシーケンスを処理できます。
"rope_scaling": {
"factor": 4.4,
"original_max_position_embeddings": 32768,
"type": "yarn",
"beta_fast": 64,
"beta_slow": 2
},
貢献者
- 言語モデルのトレーニング:Yunju Bak, Doohae Jung, Boseop Kim, Nayeon Kim, Hojin Lee, Jaesun Park, Minho Ryu
- 言語モデルのアライメント:Jiyeon Ham, Seungjae Jung, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Daniel Wontae Nam
- AIエンジニアリング:Youmin Kim, Hyeongju Kim
引用
@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
title={Kanana: Compute-efficient Bilingual Language Models},
author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
year={2025},
eprint={2502.18934},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.18934},
}
連絡先
- Kanana LLMチームの技術サポート:kanana-llm@kakaocorp.com
- ビジネスとパートナーシップの問い合わせ:alpha.k@kakaocorp.com



