模型概述
模型特點
模型能力
使用案例
🚀 kanana-1.5-8b-instruct-2505 GGUF模型
kanana-1.5-8b-instruct-2505 GGUF
模型是Kanana模型家族的新成員,在編碼、數學和函數調用能力方面有顯著提升,能處理長達32K甚至128K的token,適用於複雜的實際問題和長文本處理。
🚀 快速開始
本項目提供了多種格式的 kanana-1.5-8b-instruct-2505
模型,你可以根據自身硬件能力和內存限制選擇合適的模型格式進行使用。
✨ 主要特性
- 性能提升:相比之前版本,在編碼、數學和函數調用能力上有顯著增強。
- 長文本處理:原生支持處理長達32K的token,使用YaRN可處理長達128K的token。
- 對話優化:通過精細的後訓練過程,實現更自然、準確的對話。
📦 安裝指南
文檔未提及具體安裝步驟,可根據所選模型格式和自身硬件情況,參考相關框架和工具的文檔進行安裝。
💻 使用示例
文檔未提供代碼示例,你可以根據模型的應用場景,結合相關框架和工具編寫代碼進行使用。
📚 詳細文檔
模型生成細節
本模型使用 llama.cpp 在提交版本 f5cd27b7
時生成。
超低比特量化(IQ-DynamicGate,1 - 2比特)
我們最新的量化方法為超低比特模型(1 - 2比特)引入了精度自適應量化,經基準測試證明,在 Llama-3-8B 上有顯著改進。該方法採用特定層策略,在保持極高內存效率的同時保留準確性。
- 基準測試環境:所有測試均在 Llama-3-8B-Instruct 上進行,使用標準困惑度評估管道、2048-token上下文窗口,並在所有量化中使用相同的提示集。
- 方法
- 動態精度分配:前/後25%的層採用IQ4_XS(選定層),中間50%採用IQ2_XXS/IQ3_S(提高效率)。
- 關鍵組件保護:嵌入層/輸出層使用Q5_K,與標準1 - 2比特量化相比,誤差傳播降低38%。
- 量化性能對比(Llama-3-8B)
量化方式 | 標準困惑度(PPL) | DynamicGate困惑度(PPL) | PPL變化率 | 標準大小 | DG大小 | 大小變化 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
關鍵說明:
- PPL = 困惑度(越低越好)
- ∆ PPL = 從標準量化到DynamicGate量化的變化百分比
- 速度 = 推理時間(CPU avx2,2048 token上下文)
- 大小差異反映混合量化開銷
主要改進:
- IQ1_M 困惑度大幅降低43.9%(從27.46降至15.41)
- IQ2_S 困惑度降低36.9%,僅增加0.2GB
- IQ1_S 儘管是1比特量化,但精度仍提高39.7%
權衡:
- 所有變體的大小均有適度增加(0.1 - 0.3GB)
- 推理速度相當(差異<5%)
何時使用這些模型
- 適配GPU顯存
- 內存受限的部署
- 可容忍1 - 2比特誤差的CPU和邊緣設備
- 超低比特量化研究
選擇合適的模型格式
選擇正確的模型格式取決於你的硬件能力和內存限制。
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳使用場景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理,同時減少內存使用 |
F16 | 高 | 高 | 支持FP16的設備 | 當BF16不可用時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低顯存設備 | 內存受限環境的最佳選擇 |
Q6_K | 中 | 中等 | 內存較多的CPU | 量化模型中精度較好的選擇 |
Q8_0 | 高 | 中等 | 有足夠顯存的CPU或GPU | 量化模型中精度最高的選擇 |
IQ3_XS | 極低 | 極低 | 超低內存設備 | 極致內存效率,低精度 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備進行優化 |
包含的文件及詳情
kanana-1.5-8b-instruct-2505-bf16.gguf
:模型權重保存為 BF16 格式。如果你想將模型重新量化為其他格式,或者設備支持 BF16加速,可使用此文件。kanana-1.5-8b-instruct-2505-f16.gguf
:模型權重保存為 F16 格式。如果你的設備支持 FP16,尤其是在BF16不可用時,可使用此文件。kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf
:輸出和嵌入層 保持為 BF16 格式,其他層量化為 Q8_0。如果你的設備支持 BF16 且需要量化版本,可使用此文件。kanana-1.5-8b-instruct-2505-f16-q8_0.gguf
:輸出和嵌入層 保持為 F16 格式,其他層量化為 Q8_0。kanana-1.5-8b-instruct-2505-q4_k.gguf
:輸出和嵌入層 量化為 Q8_0,其他層量化為 Q4_K。適合內存有限的 CPU推理。kanana-1.5-8b-instruct-2505-q4_k_s.gguf
:最小的 Q4_K 變體,以犧牲精度為代價減少內存使用。適合 極低內存設置。kanana-1.5-8b-instruct-2505-q6_k.gguf
:輸出和嵌入層 量化為 Q8_0,其他層量化為 Q6_K。kanana-1.5-8b-instruct-2505-q8_0.gguf
:完全 Q8 量化的模型,精度更高,但需要 更多內存。kanana-1.5-8b-instruct-2505-iq3_xs.gguf
:IQ3_XS 量化,針對 極致內存效率 進行優化。適合 超低內存設備。kanana-1.5-8b-instruct-2505-iq3_m.gguf
:IQ3_M 量化,提供 中等塊大小 以提高精度。適合 低內存設備。kanana-1.5-8b-instruct-2505-q4_0.gguf
:純 Q4_0 量化,針對 ARM設備 進行優化。適合 低內存環境,若需要更高精度,建議使用IQ4_NL。
測試模型
如果你覺得這些模型有用,請點擊“點贊”!同時,幫助測試 AI網絡監控助手 的 量子就緒安全檢查:免費網絡監控。
- 測試方法:選擇一個 AI助手類型:
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginface開源)TestLLM
(僅支持CPU的實驗性模型)
測試內容
我正在挑戰小型開源模型在AI網絡監控中的極限,具體包括:
- 針對即時網絡服務進行 函數調用
- 探索模型在處理以下任務時的最小規模:
- 自動 Nmap掃描
- 量子就緒檢查
- 網絡監控任務
各助手特點
- TestLLM:當前的實驗性模型(llama.cpp,2個CPU線程)
- 零配置設置
- 加載時間約30秒(推理速度慢,但 無API成本)
- 尋求幫助:如果你對邊緣設備AI感興趣,歡迎合作!
- TurboLLM:使用 gpt-4o-mini 進行以下操作:
- 創建自定義命令處理器,在免費網絡監控代理上運行 .net 代碼
- 即時網絡診斷和監控
- 安全審計
- 滲透測試(Nmap/Metasploit)
- 通過登錄或 下載集成AI助手的免費網絡監控代理 獲取更多token
- HugLLM:最新的開源模型,在Hugging Face推理API上運行
示例命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)"
注意:你需要安裝免費網絡監控代理才能運行 .net 代碼,這是一個非常靈活和強大的功能,請謹慎使用!
新聞動態
2025/05/23
:發佈關於Kanana 1.5
模型的 博客文章,併發布 HF模型權重。2025/02/27
:發佈 技術報告 和 HF模型權重。2025/01/10
:發佈關於Kanana Nano
模型開發的 博客文章。2024/11/14
:發佈關於Kanana
模型開發的博客文章(預訓練,後訓練)。2024/11/06
:發佈關於Kanana
模型開發的 演示視頻。
Kanana 1.5模型介紹
Kanana 1.5
是Kanana模型家族的新版本,相比之前版本,在 編碼、數學和函數調用能力 方面有顯著提升,能夠處理更復雜的實際問題。該版本原生支持處理長達32K的token,使用YaRN可處理長達128K的token,在處理長篇文檔或進行長時間對話時能保持連貫性。此外,通過精細的後訓練過程,Kanana 1.5的對話更加自然、準確。
性能評估
基礎模型評估
模型 | MMLU | KMMLU | HAERAE | HumanEval | MBPP | GSM8K |
---|---|---|---|---|---|---|
Kanana-1.5-8B | 64.24 | 48.94 | 82.77 | 61.59 | 57.80 | 63.53 |
Kanana-8B | 64.22 | 48.30 | 83.41 | 40.24 | 51.40 | 57.09 |
指令模型評估
模型 | MT-Bench | KoMT-Bench | IFEval | HumanEval+ | MBPP+ | GSM8K (0-shot) | MATH | MMLU (0-shot, CoT) | KMMLU (0-shot, CoT) | FunctionChatBench |
---|---|---|---|---|---|---|---|---|---|---|
Kanana-1.5-8B* | 7.76 | 7.63 | 80.11 | 76.83 | 67.99 | 87.64 | 67.54 | 68.82 | 48.28 | 58.00 |
Kanana-8B | 7.13 | 6.92 | 76.91 | 62.20 | 43.92 | 79.23 | 37.68 | 66.50 | 47.43 | 17.37 |
⚠️ 重要提示
- 基於Apache 2.0許可發佈的模型是在最新版本上進行訓練的。
💡 使用建議
可根據不同模型在各項評估中的表現,結合自身需求選擇合適的模型。
處理32K以上長度的文本
目前上傳到HuggingFace的 config.json
配置為處理32,768個token或更少。若要處理更長的token序列,需應用YaRN。通過將以下參數更新到 config.json
中,可使用YaRN處理長達128K的token序列:
"rope_scaling": {
"factor": 4.4,
"original_max_position_embeddings": 32768,
"type": "yarn",
"beta_fast": 64,
"beta_slow": 2
},
🔧 技術細節
貢獻者
- 語言模型訓練:Yunju Bak, Doohae Jung, Boseop Kim, Nayeon Kim, Hojin Lee, Jaesun Park, Minho Ryu
- 語言模型對齊:Jiyeon Ham, Seungjae Jung, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Daniel Wontae Nam
- AI工程:Youmin Kim, Hyeongju Kim
引用
@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
title={Kanana: Compute-efficient Bilingual Language Models},
author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
year={2025},
eprint={2502.18934},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.18934},
}
聯繫信息
- Kanana LLM團隊技術支持:kanana-llm@kakaocorp.com
- 商務合作:alpha.k@kakaocorp.com



