Kanana 1.5

ホーム

Kanana 1.5 8b Instruct 2505 GGUF

Mungertによって開発

Kanana 1.5はKananaモデルシリーズの新バージョンで、コーディング、数学、関数呼び出し能力が大幅に向上し、最大32Kトークンの入力を処理可能で、YaRN使用時には128Kトークンまで処理可能です。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #超低ビット量子化 #32K長文処理 #韓英バイリンガル最適化

ダウンロード数 606

リリース時間 : 5/30/2025

モデル概要

複雑な実問題処理に適した先進的な機能を備えた言語モデルで、超低ビット量子化と精度適応型量子化をサポートしています。

モデル特徴

超低ビット量子化

1-2ビット量子化をサポートし、精度適応型量子化手法を採用することで、メモリ効率を維持しながら精度を向上させます

長文脈処理

ネイティブで32Kトークンの文脈をサポートし、YaRN拡張時には128Kトークンまで処理可能

動的精度割り当て

異なる層に異なる量子化戦略を採用し、前後25%層にIQ4_XS、中間50%層にIQ2_XXS/IQ3_Sを使用

重要コンポーネント保護

埋め込み/出力層にQ5_Kを使用して保護し、誤差伝播を38%低減

モデル能力

テキスト生成

命令追従

関数呼び出し

コード生成

数学的推論

長文書処理

ネットワーク監視分析

セキュリティ監査

使用事例

ネットワーク監視とセキュリティ

SSL証明書チェック

ウェブサイトのSSL証明書情報を確認

詳細な証明書情報とセキュリティ評価を提供

量子安全暗号チェック

サーバーが量子安全暗号を使用しているか検証

潜在的な暗号脆弱性を識別

セキュリティ監査

サーバーに対して包括的なセキュリティ監査を実施

詳細なセキュリティレポートを生成

開発支援

コード生成

説明に基づいて機能コードを生成

複数のプログラミング言語のコードスニペットを生成可能

コマンドプロセッサ作成

カスタムコマンドプロセッサを作成して.netコードを実行

特定機能の自動化処理を実現

🚀 kanana-1.5-8b-instruct-2505 GGUFモデル

このモデルは、大規模言語モデルに関するもので、特に超低ビット量子化技術を用いることで、メモリ効率を大幅に向上させています。また、様々なモデルフォーマットが用意されており、ハードウェアの能力やメモリ制約に応じて最適なモデルを選択できます。

🚀 クイックスタート

このセクションでは、kanana-1.5-8b-instruct-2505 GGUFモデルの概要と、主な特徴について説明します。

✨ 主な機能

モデル生成詳細

このモデルは、llama.cpp のコミット f5cd27b7 を使用して生成されました。

超低ビット量子化（IQ-DynamicGate、1 - 2ビット）

最新の量子化手法では、超低ビットモデル（1 - 2ビット）に対して 精度適応型量子化 を導入しており、Llama-3-8B でのベンチマーク検証により精度向上が確認されています。このアプローチでは、レイヤーごとの戦略を用いて、極限のメモリ効率を維持しながら精度を保つことができます。

ベンチマークの条件

すべてのテストは Llama-3-8B-Instruct を使用して行われ、以下の条件で実施されました。

標準のパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセット

手法

動的精度割り当て
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中央の50% → IQ2_XXS/IQ3_S（効率を向上）
重要コンポーネントの保護
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準の1 - 2ビット量子化と比較して、誤差伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化方式	標準PPL	DynamicGate PPL	ΔPPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー：

PPL = パープレキシティ（低いほど良い）
ΔPPL = 標準からDynamicGateへのPPLの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズの違いは混合量子化のオーバーヘッドを反映

主な改善点：

IQ1_M はパープレキシティを43.9%大幅に削減（27.46 → 15.41）
IQ2_S は0.2GBのサイズ増加でパープレキシティを36.9%削減
IQ1_S は1ビット量子化でありながら、39.7%の精度向上を維持

トレードオフ：

すべてのバリアントでサイズがわずかに増加（0.1 - 0.3GB）
推論速度はほぼ同等（差は5%未満）

これらのモデルを使用するタイミング

GPU VRAMにモデルを収める場合
メモリ制約のあるデプロイメント
CPUやエッジデバイス で1 - 2ビットの誤差が許容される場合
超低ビット量子化の研究

適切なモデルフォーマットの選択

正しいモデルフォーマットを選択するには、ハードウェアの能力 と メモリ制約 を考慮する必要があります。

BF16（Brain Float 16） - BF16アクセラレーションが利用可能な場合に使用

高速な計算を目的とした16ビット浮動小数点形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現します。
ハードウェアが BF16アクセラレーション をサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比較して、メモリ使用量を削減した 高性能推論 に最適。

BF16を使用する場合：

ハードウェアがネイティブの BF16サポート を持っている場合（例：新しいGPU、TPU）
メモリを節約しながら 高精度 が必要な場合
モデルを別の形式に再量子化する予定の場合

BF16を避ける場合：

ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性がある）
BF16最適化を持たない古いデバイスとの互換性が必要な場合

F16（Float 16） - BF16よりも広くサポートされている

16ビット浮動小数点形式で、高精度 を持ち、BF16よりも値の範囲が狭い。
ほとんどのデバイスで FP16アクセラレーション をサポートしている場合に動作します（多くのGPUや一部のCPUを含む）。
BF16よりもわずかに数値精度が低いが、一般的に推論には十分です。

F16を使用する場合：

ハードウェアが FP16 をサポートしているが、BF16 をサポートしていない場合
速度、メモリ使用量、精度のバランスが必要な場合
GPU またはFP16計算に最適化された他のデバイスで実行する場合

F16を避ける場合：

デバイスがネイティブの FP16サポート を持っていない場合（予想よりも低速になる可能性がある）
メモリ制約がある場合

量子化モデル（Q4_K、Q6_K、Q8など） - CPUと低VRAMでの推論に適しています

量子化により、モデルサイズとメモリ使用量を削減しながら、可能な限り精度を維持することができます。

低ビットモデル（Q4_K） - 最小限のメモリ使用量 に最適ですが、精度が低い場合があります。
高ビットモデル（Q6_K、Q8_0） - より高い精度 を提供しますが、より多くのメモリを必要とします。

量子化モデルを使用する場合：

CPU で推論を実行し、最適化されたモデルが必要な場合
デバイスの VRAMが少なく、フル精度のモデルをロードできない場合
適度な精度を維持しながら メモリ使用量を削減 したい場合

量子化モデルを避ける場合：

最大精度 が必要な場合（フル精度のモデルの方が適しています）
ハードウェアに十分なVRAMがあり、より高精度の形式（BF16/F16）が使用できる場合

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは、極限のメモリ効率 を追求するために最適化されており、低電力デバイス や 大規模デプロイメント でメモリが重要な制約となる場合に最適です。

IQ3_XS：超低ビット量子化（3ビット）で、極限のメモリ効率 を実現。
- 使用例：Q4_Kでも大きすぎる 超低メモリデバイス に最適。
- トレードオフ：高ビット量子化と比較して精度が低い。
IQ3_S：最大のメモリ効率を実現するための小さなブロックサイズ。
- 使用例：IQ3_XS が過度に激しい場合の 低メモリデバイス に最適。
IQ3_M：IQ3_S よりも精度が高い中程度のブロックサイズ。
- 使用例：IQ3_S が制限的すぎる 低メモリデバイス に適しています。
Q4_K：ブロック単位の最適化により精度が向上した4ビット量子化。
- 使用例：Q6_K が大きすぎる 低メモリデバイス に最適。
Q4_0：ARMデバイス 用に最適化された純粋な4ビット量子化。
- 使用例：ARMベースのデバイス または 低メモリ環境 に最適。

モデルフォーマット選択のまとめ

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応のGPU/CPU	メモリを削減した高速推論
F16	高	高	FP16対応のデバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約のある環境に最適
Q6_K	中	中程度	より多くのメモリを持つCPU	量子化されたままでも精度が高い
Q8_0	高	中程度	十分なVRAMを持つCPUまたはGPU	量子化モデルの中で最も高い精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極限のメモリ効率と低い精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppはARMデバイス用に最適化できます

含まれるファイルと詳細

`kanana-1.5-8b-instruct-2505-bf16.gguf`

モデルの重みが BF16 で保存されています。
モデルを別の形式に 再量子化 する場合に使用します。
デバイスが BF16アクセラレーション をサポートしている場合に最適。

`kanana-1.5-8b-instruct-2505-f16.gguf`

モデルの重みが F16 で保存されています。
デバイスが FP16 をサポートしている場合、特にBF16が利用できない場合に使用します。

`kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf`

出力と埋め込み は BF16 のままです。
他のすべてのレイヤーは Q8_0 に量子化されています。
デバイスが BF16 をサポートしており、量子化されたバージョンが必要な場合に使用します。

`kanana-1.5-8b-instruct-2505-f16-q8_0.gguf`

出力と埋め込み は F16 のままです。
他のすべてのレイヤーは Q8_0 に量子化されています。

`kanana-1.5-8b-instruct-2505-q4_k.gguf`

出力と埋め込み は Q8_0 に量子化されています。
他のすべてのレイヤーは Q4_K に量子化されています。
メモリが制限された CPU推論 に適しています。

`kanana-1.5-8b-instruct-2505-q4_k_s.gguf`

最も小さい Q4_K バリアントで、精度を犠牲にしてメモリ使用量を削減しています。
非常に低メモリのセットアップ に最適。

`kanana-1.5-8b-instruct-2505-q6_k.gguf`

出力と埋め込み は Q8_0 に量子化されています。
他のすべてのレイヤーは Q6_K に量子化されています。

`kanana-1.5-8b-instruct-2505-q8_0.gguf`

完全に Q8 量子化されたモデルで、精度が高い。
より多くのメモリ が必要ですが、より高い精度を提供します。

`kanana-1.5-8b-instruct-2505-iq3_xs.gguf`

IQ3_XS 量子化で、極限のメモリ効率 を実現。
超低メモリデバイス に最適。

`kanana-1.5-8b-instruct-2505-iq3_m.gguf`

IQ3_M 量子化で、中程度のブロックサイズで精度が向上。
低メモリデバイス に適しています。

`kanana-1.5-8b-instruct-2505-q4_0.gguf`

純粋な Q4_0 量子化で、ARMデバイス 用に最適化されています。
低メモリ環境 に最適。
精度を向上させるにはIQ4_NLを選択することをおすすめします。

モデルが役立つ場合

もしこれらのモデルが役に立った場合は、「いいね」をクリックしていただけると助かります！また、量子対応のセキュリティチェック を備えた AI搭載のネットワークモニターアシスタント のテストに協力していただけると幸いです。

テスト方法

AIアシスタントのタイプ を選択します。
- TurboLLM（GPT-4o-mini）
- HugLLM（Hugginfaceオープンソース）
- TestLLM（実験的なCPU専用）

テスト内容

AIネットワークモニタリングのための小規模なオープンソースモデルの限界を追求しています。具体的には、以下のことをテストしています。

ライブネットワークサービスに対する 関数呼び出し
モデルが次のタスクを処理できる最小サイズ
- 自動化された Nmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク

TestLLM - 現在の実験的モデル（2つのCPUスレッドでのllama.cpp）

ゼロコンフィギュレーションセットアップ
30秒のロード時間（推論は遅いが APIコストがかからない）
協力を求めています！ エッジデバイスAIに興味がある方は、一緒に協力しましょう！

他のアシスタント

TurboLLM - gpt-4o-mini を使用して、以下のことができます。
- カスタムコマンドプロセッサを作成して、Free Network Monitor Agentsで.NETコードを実行する
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト（Nmap/Metasploit）
- ログインするか、統合されたAIアシスタント付きのFree Network Monitor Agentをダウンロードすることで、より多くのトークンを取得できます。
HugLLM - 最新のオープンソースモデル
- Hugging Face Inference APIで実行されます。

テストできるコマンドの例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注：.NETコードを実行するには、Free Network Monitor Agentをインストールする必要があります。これは非常に柔軟で強力な機能ですが、注意して使用してください！

ニュース

2025/05/23：Kanana 1.5 モデルに関するブログ記事を公開し、HFモデルの重みをリリースしました。
2025/02/27：技術レポートと HFモデルの重みをリリースしました。
2025/01/10：Kanana Nano モデルの開発に関するブログ記事を公開しました。
2024/11/14：Kanana モデルの開発に関するブログ記事（事前学習、事後学習）を公開しました。
2024/11/06：Kanana モデルの開発に関するプレゼンテーションビデオを公開しました。

Kanana 1.5 は、Kananaモデルファミリーの新しいバージョンで、前のバージョンと比較して、コーディング、数学、関数呼び出し機能 が大幅に向上しています。これにより、より複雑な実世界の問題に対して幅広く適用することができます。この新しいバージョンでは、ネイティブで 最大32Kトークンの長さを処理 でき、YaRNを使用することで 最大128Kトークン を処理できるようになりました。これにより、大規模なドキュメントや長い会話を処理する際にも一貫性を保つことができます。さらに、洗練された事後学習プロセス により、より自然で正確な会話を実現しています。

⚠️ 重要提示

事前学習データと事後学習データのどちらにも、Kakaoのユーザーデータは含まれていません。

性能

ベースモデル評価

モデル	MMLU	KMMLU	HAERAE	HumanEval	MBPP	GSM8K
Kanana-1.5-8B	64.24	48.94	82.77	61.59	57.80	63.53
Kanana-8B	64.22	48.30	83.41	40.24	51.40	57.09

命令モデル評価

モデル	MT-Bench	KoMT-Bench	IFEval	HumanEval+	MBPP+	GSM8K (0-shot)	MATH	MMLU (0-shot, CoT)	KMMLU (0-shot, CoT)	FunctionChatBench
Kanana-1.5-8B*	7.76	7.63	80.11	76.83	67.99	87.64	67.54	68.82	48.28	58.00
Kanana-8B	7.13	6.92	76.91	62.20	43.92	79.23	37.68	66.50	47.43	17.37

⚠️ 重要提示

* Apache 2.0の下でリリースされたモデルは、他のモデルと比較して最新バージョンで学習されています。

32K以上のトークン長の処理

現在、HuggingFaceにアップロードされている config.json は、32,768トークン以下の長さに設定されています。これを超えるトークンを処理するには、YaRNを適用する必要があります。以下のパラメータを config.json に追加することで、YaRNを適用して最大128Kトークンのシーケンスを処理できます。

"rope_scaling": {
    "factor": 4.4,
    "original_max_position_embeddings": 32768,
    "type": "yarn",
    "beta_fast": 64,
    "beta_slow": 2
},

貢献者

言語モデルのトレーニング：Yunju Bak, Doohae Jung, Boseop Kim, Nayeon Kim, Hojin Lee, Jaesun Park, Minho Ryu
言語モデルのアライメント：Jiyeon Ham, Seungjae Jung, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Daniel Wontae Nam
AIエンジニアリング：Youmin Kim, Hyeongju Kim

引用

@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
      title={Kanana: Compute-efficient Bilingual Language Models}, 
      author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
      year={2025},
      eprint={2502.18934},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.18934}, 
}