模型简介
模型特点
模型能力
使用案例
🚀 kanana-1.5-8b-instruct-2505 GGUF模型
kanana-1.5-8b-instruct-2505 GGUF
模型是Kanana模型家族的新成员,在编码、数学和函数调用能力方面有显著提升,能处理长达32K甚至128K的token,适用于复杂的实际问题和长文本处理。
🚀 快速开始
本项目提供了多种格式的 kanana-1.5-8b-instruct-2505
模型,你可以根据自身硬件能力和内存限制选择合适的模型格式进行使用。
✨ 主要特性
- 性能提升:相比之前版本,在编码、数学和函数调用能力上有显著增强。
- 长文本处理:原生支持处理长达32K的token,使用YaRN可处理长达128K的token。
- 对话优化:通过精细的后训练过程,实现更自然、准确的对话。
📦 安装指南
文档未提及具体安装步骤,可根据所选模型格式和自身硬件情况,参考相关框架和工具的文档进行安装。
💻 使用示例
文档未提供代码示例,你可以根据模型的应用场景,结合相关框架和工具编写代码进行使用。
📚 详细文档
模型生成细节
本模型使用 llama.cpp 在提交版本 f5cd27b7
时生成。
超低比特量化(IQ-DynamicGate,1 - 2比特)
我们最新的量化方法为超低比特模型(1 - 2比特)引入了精度自适应量化,经基准测试证明,在 Llama-3-8B 上有显著改进。该方法采用特定层策略,在保持极高内存效率的同时保留准确性。
- 基准测试环境:所有测试均在 Llama-3-8B-Instruct 上进行,使用标准困惑度评估管道、2048-token上下文窗口,并在所有量化中使用相同的提示集。
- 方法
- 动态精度分配:前/后25%的层采用IQ4_XS(选定层),中间50%采用IQ2_XXS/IQ3_S(提高效率)。
- 关键组件保护:嵌入层/输出层使用Q5_K,与标准1 - 2比特量化相比,误差传播降低38%。
- 量化性能对比(Llama-3-8B)
量化方式 | 标准困惑度(PPL) | DynamicGate困惑度(PPL) | PPL变化率 | 标准大小 | DG大小 | 大小变化 | 标准速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键说明:
- PPL = 困惑度(越低越好)
- ∆ PPL = 从标准量化到DynamicGate量化的变化百分比
- 速度 = 推理时间(CPU avx2,2048 token上下文)
- 大小差异反映混合量化开销
主要改进:
- IQ1_M 困惑度大幅降低43.9%(从27.46降至15.41)
- IQ2_S 困惑度降低36.9%,仅增加0.2GB
- IQ1_S 尽管是1比特量化,但精度仍提高39.7%
权衡:
- 所有变体的大小均有适度增加(0.1 - 0.3GB)
- 推理速度相当(差异<5%)
何时使用这些模型
- 适配GPU显存
- 内存受限的部署
- 可容忍1 - 2比特误差的CPU和边缘设备
- 超低比特量化研究
选择合适的模型格式
选择正确的模型格式取决于你的硬件能力和内存限制。
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳使用场景 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理,同时减少内存使用 |
F16 | 高 | 高 | 支持FP16的设备 | 当BF16不可用时的GPU推理 |
Q4_K | 中低 | 低 | CPU或低显存设备 | 内存受限环境的最佳选择 |
Q6_K | 中 | 中等 | 内存较多的CPU | 量化模型中精度较好的选择 |
Q8_0 | 高 | 中等 | 有足够显存的CPU或GPU | 量化模型中精度最高的选择 |
IQ3_XS | 极低 | 极低 | 超低内存设备 | 极致内存效率,低精度 |
Q4_0 | 低 | 低 | ARM或低内存设备 | llama.cpp可针对ARM设备进行优化 |
包含的文件及详情
kanana-1.5-8b-instruct-2505-bf16.gguf
:模型权重保存为 BF16 格式。如果你想将模型重新量化为其他格式,或者设备支持 BF16加速,可使用此文件。kanana-1.5-8b-instruct-2505-f16.gguf
:模型权重保存为 F16 格式。如果你的设备支持 FP16,尤其是在BF16不可用时,可使用此文件。kanana-1.5-8b-instruct-2505-bf16-q8_0.gguf
:输出和嵌入层 保持为 BF16 格式,其他层量化为 Q8_0。如果你的设备支持 BF16 且需要量化版本,可使用此文件。kanana-1.5-8b-instruct-2505-f16-q8_0.gguf
:输出和嵌入层 保持为 F16 格式,其他层量化为 Q8_0。kanana-1.5-8b-instruct-2505-q4_k.gguf
:输出和嵌入层 量化为 Q8_0,其他层量化为 Q4_K。适合内存有限的 CPU推理。kanana-1.5-8b-instruct-2505-q4_k_s.gguf
:最小的 Q4_K 变体,以牺牲精度为代价减少内存使用。适合 极低内存设置。kanana-1.5-8b-instruct-2505-q6_k.gguf
:输出和嵌入层 量化为 Q8_0,其他层量化为 Q6_K。kanana-1.5-8b-instruct-2505-q8_0.gguf
:完全 Q8 量化的模型,精度更高,但需要 更多内存。kanana-1.5-8b-instruct-2505-iq3_xs.gguf
:IQ3_XS 量化,针对 极致内存效率 进行优化。适合 超低内存设备。kanana-1.5-8b-instruct-2505-iq3_m.gguf
:IQ3_M 量化,提供 中等块大小 以提高精度。适合 低内存设备。kanana-1.5-8b-instruct-2505-q4_0.gguf
:纯 Q4_0 量化,针对 ARM设备 进行优化。适合 低内存环境,若需要更高精度,建议使用IQ4_NL。
测试模型
如果你觉得这些模型有用,请点击“点赞”!同时,帮助测试 AI网络监控助手 的 量子就绪安全检查:免费网络监控。
- 测试方法:选择一个 AI助手类型:
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginface开源)TestLLM
(仅支持CPU的实验性模型)
测试内容
我正在挑战小型开源模型在AI网络监控中的极限,具体包括:
- 针对实时网络服务进行 函数调用
- 探索模型在处理以下任务时的最小规模:
- 自动 Nmap扫描
- 量子就绪检查
- 网络监控任务
各助手特点
- TestLLM:当前的实验性模型(llama.cpp,2个CPU线程)
- 零配置设置
- 加载时间约30秒(推理速度慢,但 无API成本)
- 寻求帮助:如果你对边缘设备AI感兴趣,欢迎合作!
- TurboLLM:使用 gpt-4o-mini 进行以下操作:
- 创建自定义命令处理器,在免费网络监控代理上运行 .net 代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试(Nmap/Metasploit)
- 通过登录或 下载集成AI助手的免费网络监控代理 获取更多token
- HugLLM:最新的开源模型,在Hugging Face推理API上运行
示例命令
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)"
注意:你需要安装免费网络监控代理才能运行 .net 代码,这是一个非常灵活和强大的功能,请谨慎使用!
新闻动态
2025/05/23
:发布关于Kanana 1.5
模型的 博客文章,并发布 HF模型权重。2025/02/27
:发布 技术报告 和 HF模型权重。2025/01/10
:发布关于Kanana Nano
模型开发的 博客文章。2024/11/14
:发布关于Kanana
模型开发的博客文章(预训练,后训练)。2024/11/06
:发布关于Kanana
模型开发的 演示视频。
Kanana 1.5模型介绍
Kanana 1.5
是Kanana模型家族的新版本,相比之前版本,在 编码、数学和函数调用能力 方面有显著提升,能够处理更复杂的实际问题。该版本原生支持处理长达32K的token,使用YaRN可处理长达128K的token,在处理长篇文档或进行长时间对话时能保持连贯性。此外,通过精细的后训练过程,Kanana 1.5的对话更加自然、准确。
性能评估
基础模型评估
模型 | MMLU | KMMLU | HAERAE | HumanEval | MBPP | GSM8K |
---|---|---|---|---|---|---|
Kanana-1.5-8B | 64.24 | 48.94 | 82.77 | 61.59 | 57.80 | 63.53 |
Kanana-8B | 64.22 | 48.30 | 83.41 | 40.24 | 51.40 | 57.09 |
指令模型评估
模型 | MT-Bench | KoMT-Bench | IFEval | HumanEval+ | MBPP+ | GSM8K (0-shot) | MATH | MMLU (0-shot, CoT) | KMMLU (0-shot, CoT) | FunctionChatBench |
---|---|---|---|---|---|---|---|---|---|---|
Kanana-1.5-8B* | 7.76 | 7.63 | 80.11 | 76.83 | 67.99 | 87.64 | 67.54 | 68.82 | 48.28 | 58.00 |
Kanana-8B | 7.13 | 6.92 | 76.91 | 62.20 | 43.92 | 79.23 | 37.68 | 66.50 | 47.43 | 17.37 |
⚠️ 重要提示
- 基于Apache 2.0许可发布的模型是在最新版本上进行训练的。
💡 使用建议
可根据不同模型在各项评估中的表现,结合自身需求选择合适的模型。
处理32K以上长度的文本
目前上传到HuggingFace的 config.json
配置为处理32,768个token或更少。若要处理更长的token序列,需应用YaRN。通过将以下参数更新到 config.json
中,可使用YaRN处理长达128K的token序列:
"rope_scaling": {
"factor": 4.4,
"original_max_position_embeddings": 32768,
"type": "yarn",
"beta_fast": 64,
"beta_slow": 2
},
🔧 技术细节
贡献者
- 语言模型训练:Yunju Bak, Doohae Jung, Boseop Kim, Nayeon Kim, Hojin Lee, Jaesun Park, Minho Ryu
- 语言模型对齐:Jiyeon Ham, Seungjae Jung, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Daniel Wontae Nam
- AI工程:Youmin Kim, Hyeongju Kim
引用
@misc{kananallmteam2025kananacomputeefficientbilinguallanguage,
title={Kanana: Compute-efficient Bilingual Language Models},
author={Kanana LLM Team and Yunju Bak and Hojin Lee and Minho Ryu and Jiyeon Ham and Seungjae Jung and Daniel Wontae Nam and Taegyeong Eo and Donghun Lee and Doohae Jung and Boseop Kim and Nayeon Kim and Jaesun Park and Hyunho Kim and Hyunwoong Ko and Changmin Lee and Kyoung-Woon On and Seulye Baeg and Junrae Cho and Sunghee Jung and Jieun Kang and EungGyun Kim and Eunhwa Kim and Byeongil Ko and Daniel Lee and Minchul Lee and Miok Lee and Shinbok Lee and Gaeun Seo},
year={2025},
eprint={2502.18934},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.18934},
}
联系信息
- Kanana LLM团队技术支持:kanana-llm@kakaocorp.com
- 商务合作:alpha.k@kakaocorp.com



