Kanana 1.5-8b-instruct-2505-GGUF開源模型 - 編碼數學強，長輸入處理超給力

首頁

Kanana 1.5 8b Instruct 2505 GGUF

由Mungert開發

Kanana 1.5 是 Kanana 模型系列的新版本，在編碼、數學和函數調用能力方面有顯著提升，能夠處理長達32K個令牌的輸入，使用YaRN時可處理多達128K個令牌。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #超低比特量化 #32K長文本處理 #韓英雙語優化

下載量 606

發布時間 : 5/30/2025

模型概述

具有先進特性的語言模型，適用於複雜實際問題處理，支持超低比特量化與精度自適應量化。

模型特點

超低比特量化

支持1-2比特量化，採用精度自適應量化方法，在保持內存效率的同時提升精度

長上下文處理

原生支持32K令牌上下文，使用YaRN擴展後可處理128K令牌

動態精度分配

不同層採用不同量化策略，前/後25%層使用IQ4_XS，中間50%層使用IQ2_XXS/IQ3_S

關鍵組件保護

嵌入/輸出層使用Q5_K保護，降低誤差傳播38%

模型能力

文本生成

指令跟隨

函數調用

代碼生成

數學推理

長文檔處理

網絡監控分析

安全審計

使用案例

網絡監控與安全

SSL證書檢查

檢查網站的SSL證書信息

提供詳細的證書信息和安全評估

量子安全加密檢查

驗證服務器是否使用量子安全加密

識別潛在的加密漏洞

安全審計

對服務器進行全面的安全審計

生成詳細的安全報告

開發輔助

代碼生成

根據描述生成功能代碼

可生成多種編程語言的代碼片段

命令處理器創建

創建自定義命令處理器以運行.net代碼

實現特定功能的自動化處理

🚀 kanana-1.5-8b-instruct-2505 GGUF模型

kanana-1.5-8b-instruct-2505 GGUF 模型是Kanana模型家族的新成員，在編碼、數學和函數調用能力方面有顯著提升，能處理長達32K甚至128K的token，適用於複雜的實際問題和長文本處理。

🚀 快速開始

本項目提供了多種格式的 kanana-1.5-8b-instruct-2505 模型，你可以根據自身硬件能力和內存限制選擇合適的模型格式進行使用。

✨ 主要特性

性能提升：相比之前版本，在編碼、數學和函數調用能力上有顯著增強。
長文本處理：原生支持處理長達32K的token，使用YaRN可處理長達128K的token。
對話優化：通過精細的後訓練過程，實現更自然、準確的對話。

📦 安裝指南

文檔未提及具體安裝步驟，可根據所選模型格式和自身硬件情況，參考相關框架和工具的文檔進行安裝。

💻 使用示例

文檔未提供代碼示例，你可以根據模型的應用場景，結合相關框架和工具編寫代碼進行使用。

📚 詳細文檔

模型生成細節

本模型使用 llama.cpp 在提交版本 f5cd27b7 時生成。

超低比特量化（IQ-DynamicGate，1 - 2比特）

我們最新的量化方法為超低比特模型（1 - 2比特）引入了精度自適應量化，經基準測試證明，在 Llama-3-8B 上有顯著改進。該方法採用特定層策略，在保持極高內存效率的同時保留準確性。

基準測試環境：所有測試均在 Llama-3-8B-Instruct 上進行，使用標準困惑度評估管道、2048-token上下文窗口，並在所有量化中使用相同的提示集。
方法
- 動態精度分配：前/後25%的層採用IQ4_XS（選定層），中間50%採用IQ2_XXS/IQ3_S（提高效率）。
- 關鍵組件保護：嵌入層/輸出層使用Q5_K，與標準1 - 2比特量化相比，誤差傳播降低38%。
量化性能對比（Llama-3-8B）

量化方式	標準困惑度（PPL）	DynamicGate困惑度（PPL）	PPL變化率	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵說明：

PPL = 困惑度（越低越好）
∆ PPL = 從標準量化到DynamicGate量化的變化百分比
速度 = 推理時間（CPU avx2，2048 token上下文）
大小差異反映混合量化開銷

主要改進：

IQ1_M 困惑度大幅降低43.9%（從27.46降至15.41）
IQ2_S 困惑度降低36.9%，僅增加0.2GB
IQ1_S 儘管是1比特量化，但精度仍提高39.7%

權衡：

所有變體的大小均有適度增加（0.1 - 0.3GB）
推理速度相當（差異<5%）

何時使用這些模型

適配GPU顯存
內存受限的部署
可容忍1 - 2比特誤差的CPU和邊緣設備
超低比特量化研究

選擇合適的模型格式

選擇正確的模型格式取決於你的硬件能力和內存限制。

模型格式	精度	內存使用	設備要求	最佳使用場景
BF16	最高	高	支持BF16的GPU/CPU	高速推理，同時減少內存使用
F16	高	高	支持FP16的設備	當BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境的最佳選擇
Q6_K	中	中等	內存較多的CPU	量化模型中精度較好的選擇
Q8_0	高	中等	有足夠顯存的CPU或GPU	量化模型中精度最高的選擇
IQ3_XS	極低	極低	超低內存設備	極致內存效率，低精度
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備進行優化

包含的文件及詳情

kanana-1.5-8b-instruct-2505-bf16.gguf：模型權重保存為 BF16 格式。如果你想將模型重新量化為其他格式，或者設備支持 BF16加速，可使用此文件。
kanana-1.5-8b-instruct-2505-f16.gguf：模型權重保存為 F16 格式。如果你的設備支持 FP16，尤其是在BF16不可用時，可使用此文件。
kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf：輸出和嵌入層 保持為 BF16 格式，其他層量化為 Q8_0。如果你的設備支持 BF16 且需要量化版本，可使用此文件。
kanana-1.5-8b-instruct-2505-f16-q8_0.gguf：輸出和嵌入層 保持為 F16 格式，其他層量化為 Q8_0。
kanana-1.5-8b-instruct-2505-q4_k.gguf：輸出和嵌入層 量化為 Q8_0，其他層量化為 Q4_K。適合內存有限的 CPU推理。
kanana-1.5-8b-instruct-2505-q4_k_s.gguf：最小的 Q4_K 變體，以犧牲精度為代價減少內存使用。適合 極低內存設置。
kanana-1.5-8b-instruct-2505-q6_k.gguf：輸出和嵌入層 量化為 Q8_0，其他層量化為 Q6_K。
kanana-1.5-8b-instruct-2505-q8_0.gguf：完全 Q8 量化的模型，精度更高，但需要 更多內存。
kanana-1.5-8b-instruct-2505-iq3_xs.gguf：IQ3_XS 量化，針對 極致內存效率 進行優化。適合 超低內存設備。
kanana-1.5-8b-instruct-2505-iq3_m.gguf：IQ3_M 量化，提供 中等塊大小 以提高精度。適合 低內存設備。
kanana-1.5-8b-instruct-2505-q4_0.gguf：純 Q4_0 量化，針對 ARM設備 進行優化。適合 低內存環境，若需要更高精度，建議使用IQ4_NL。

測試模型

如果你覺得這些模型有用，請點擊“點贊”！同時，幫助測試 AI網絡監控助手 的 量子就緒安全檢查：免費網絡監控。

測試方法：選擇一個 AI助手類型：
- TurboLLM (GPT-4o-mini)
- HugLLM (Hugginface開源)
- TestLLM (僅支持CPU的實驗性模型)

測試內容

我正在挑戰小型開源模型在AI網絡監控中的極限，具體包括：

針對即時網絡服務進行 函數調用
探索模型在處理以下任務時的最小規模：
- 自動 Nmap掃描
- 量子就緒檢查
- 網絡監控任務

各助手特點

TestLLM：當前的實驗性模型（llama.cpp，2個CPU線程）
- 零配置設置
- 加載時間約30秒（推理速度慢，但 無API成本）
- 尋求幫助：如果你對邊緣設備AI感興趣，歡迎合作！
TurboLLM：使用 gpt-4o-mini 進行以下操作：
- 創建自定義命令處理器，在免費網絡監控代理上運行 .net 代碼
- 即時網絡診斷和監控
- 安全審計
- 滲透測試（Nmap/Metasploit）
- 通過登錄或下載集成AI助手的免費網絡監控代理獲取更多token
HugLLM：最新的開源模型，在Hugging Face推理API上運行

示例命令

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注意：你需要安裝免費網絡監控代理才能運行 .net 代碼，這是一個非常靈活和強大的功能，請謹慎使用！

新聞動態

2025/05/23：發佈關於 Kanana 1.5 模型的博客文章，併發布 HF模型權重。
2025/02/27：發佈技術報告和 HF模型權重。
2025/01/10：發佈關於 Kanana Nano 模型開發的博客文章。
2024/11/14：發佈關於 Kanana 模型開發的博客文章（預訓練，後訓練）。
2024/11/06：發佈關於 Kanana 模型開發的演示視頻。

Kanana 1.5模型介紹

Kanana 1.5 是Kanana模型家族的新版本，相比之前版本，在 編碼、數學和函數調用能力 方面有顯著提升，能夠處理更復雜的實際問題。該版本原生支持處理長達32K的token，使用YaRN可處理長達128K的token，在處理長篇文檔或進行長時間對話時能保持連貫性。此外，通過精細的後訓練過程，Kanana 1.5的對話更加自然、準確。

性能評估

基礎模型評估

模型	MMLU	KMMLU	HAERAE	HumanEval	MBPP	GSM8K
Kanana-1.5-8B	64.24	48.94	82.77	61.59	57.80	63.53
Kanana-8B	64.22	48.30	83.41	40.24	51.40	57.09

指令模型評估

模型	MT-Bench	KoMT-Bench	IFEval	HumanEval+	MBPP+	GSM8K (0-shot)	MATH	MMLU (0-shot, CoT)	KMMLU (0-shot, CoT)	FunctionChatBench
Kanana-1.5-8B*	7.76	7.63	80.11	76.83	67.99	87.64	67.54	68.82	48.28	58.00
Kanana-8B	7.13	6.92	76.91	62.20	43.92	79.23	37.68	66.50	47.43	17.37

⚠️ 重要提示

基於Apache 2.0許可發佈的模型是在最新版本上進行訓練的。

💡 使用建議

可根據不同模型在各項評估中的表現，結合自身需求選擇合適的模型。

處理32K以上長度的文本

目前上傳到HuggingFace的 config.json 配置為處理32,768個token或更少。若要處理更長的token序列，需應用YaRN。通過將以下參數更新到 config.json 中，可使用YaRN處理長達128K的token序列：

"rope_scaling": {
    "factor": 4.4,
    "original_max_position_embeddings": 32768,
    "type": "yarn",
    "beta_fast": 64,
    "beta_slow": 2
},

🔧 技術細節

貢獻者

語言模型訓練：Yunju Bak, Doohae Jung, Boseop Kim, Nayeon Kim, Hojin Lee, Jaesun Park, Minho Ryu
語言模型對齊：Jiyeon Ham, Seungjae Jung, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Daniel Wontae Nam
AI工程：Youmin Kim, Hyeongju Kim

引用

@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
      title={Kanana: Compute-efficient Bilingual Language Models}, 
      author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
      year={2025},
      eprint={2502.18934},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2502.18934}, 
}