🚀 Primus:用于网络安全大语言模型训练的开源数据集先锋集合
Primus是一套用于网络安全大语言模型训练的开源数据集集合。基于这些数据集和Llama - 3.1 - 8B - Instruct,开发了相关模型,在多个网络安全基准测试中取得显著提升,展现了针对网络安全预训练的有效性。

简而言之:Llama - Primus - Base是基于Llama - 3.1 - 8B - Instruct的基础模型,在Primus - Seed(0.2B)和Primus - FineWeb(2.57B)上进行持续预训练。Primus - Seed是一个高质量、人工策划的网络安全文本数据集,而Primus - FineWeb由从FineWeb(Common Crawl的精炼版本)中过滤出的网络安全文本组成。通过在如此大规模的网络安全语料库上进行预训练,它在多个网络安全基准测试的综合得分上实现了🔥**15.88%**的提升,证明了针对网络安全进行特定预训练的有效性。
📄 更多详细信息,请参考论文:[📄论文]。
🚀 快速开始
本项目围绕Primus数据集和基于其训练的模型展开,旨在为网络安全大语言模型训练提供支持。若你想深入了解项目细节和使用方法,请继续阅读后续内容。
✨ 主要特性
- 丰富的数据集:涵盖网络安全大语言模型训练的多个阶段,包括预训练(Primus - Seed 和 Primus - FineWeb)、指令微调(Primus - Instruct)和蒸馏推理数据(Primus - Reasoning)。
- 显著的性能提升:基于这些数据集训练的模型,如 Llama - Primus - Base,在多个网络安全基准测试中取得了显著的性能提升。
- 行业领先贡献:作为行业领导者,Trend Micro贡献了这些强大且经过效率优化的模型和数据集。
📚 详细文档
项目介绍
大语言模型(LLMs)近年来展现出了卓越的通用性,在金融、法律和生物医学等专业领域有着广阔的应用前景。然而,在网络安全领域,我们发现缺乏专门为大语言模型预训练设计的开源数据集——尽管许多研究表明大语言模型在预训练阶段获取知识。为了填补这一空白,我们推出了一系列涵盖网络安全大语言模型训练多个阶段的数据集,基于这些数据集和Llama - 3.1 - 8B - Instruct,我们开发了 Llama - Primus - Base、Llama - Primus - Merged 和 Llama - Primus - Reasoning。本模型卡片介绍的是 Llama - Primus - Base。
⚠️ 重要提示
本项目不包含Trend Micro的任何客户信息。
网络安全基准测试结果
指标 (5 - shot, 无思维链) |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Base |
CISSP(书籍考试) |
0.7073 |
0.7230 |
CTI - Bench(多项选择题) |
0.6420 |
0.6676 |
CTI - Bench(CVE → CWE) |
0.5910 |
0.6780 |
CTI - Bench(CVSS,越低越好) |
1.2712 |
1.0912 |
CTI - Bench(ATE) |
0.2721 |
0.3140 |
CyberMetric(500) |
0.8560 |
0.8660 |
SecEval |
0.4966 |
0.5007 |
综合得分 |
2.29 |
2.66 ↑15.88% 📈 |
CTI - Bench(CVSS)使用平均绝对偏差进行评分(越低越好),CTI - ATE使用F1分数,其他指标使用准确率。综合得分(Agg.)是所有基准测试得分的总和,其中CTI - Bench(CVSS)取负值。
参考资料:
关于 Primus
Primus 是Trend Micro开创的轻量级、最先进的开源网络安全语言模型和数据集家族。通过我们前沿的研究计划和先进技术开发而成,这些资源与推动我们企业级 [Trend Cybertron](https://newsroom.trendmicro.com/2025 - 02 - 25 - Trend - Micro - Puts - Industry - Ahead - of - Cyberattacks - with - Industrys - First - Proactive - Cybersecurity - AI) 解决方案的创新基础相同。作为网络安全领域的行业领导者,Trend Micro自豪地将这些强大且经过效率优化的模型和数据集贡献给社区,同时保持定义我们全球安全标准的卓越性和可靠性。
📄 许可证
本模型基于MIT许可证,但你还必须遵守Llama 3.1社区许可协议。
信息表格
属性 |
详情 |
模型类型 |
文本生成 |
基础模型 |
meta - llama/Llama - 3.1 - 8B - Instruct |
训练数据 |
trendmicro - ailab/Primus - FineWeb、trendmicro - ailab/Primus - Seed |
库名称 |
transformers |
标签 |
网络安全、预训练 |
额外授权字段 |
所属机构、国家、使用目的(研究、商业、其他)、职位(学生、研究毕业生、人工智能研究员、人工智能开发者/工程师、网络安全研究员、记者、其他)、地理位置(IP地址定位) |