🚀 Primus:用於網絡安全大語言模型訓練的開源數據集先鋒集合
Primus是一套用於網絡安全大語言模型訓練的開源數據集集合。基於這些數據集和Llama - 3.1 - 8B - Instruct,開發了相關模型,在多個網絡安全基準測試中取得顯著提升,展現了針對網絡安全預訓練的有效性。

簡而言之:Llama - Primus - Base是基於Llama - 3.1 - 8B - Instruct的基礎模型,在Primus - Seed(0.2B)和Primus - FineWeb(2.57B)上進行持續預訓練。Primus - Seed是一個高質量、人工策劃的網絡安全文本數據集,而Primus - FineWeb由從FineWeb(Common Crawl的精煉版本)中過濾出的網絡安全文本組成。通過在如此大規模的網絡安全語料庫上進行預訓練,它在多個網絡安全基準測試的綜合得分上實現了🔥**15.88%**的提升,證明了針對網絡安全進行特定預訓練的有效性。
📄 更多詳細信息,請參考論文:[📄論文]。
🚀 快速開始
本項目圍繞Primus數據集和基於其訓練的模型展開,旨在為網絡安全大語言模型訓練提供支持。若你想深入瞭解項目細節和使用方法,請繼續閱讀後續內容。
✨ 主要特性
- 豐富的數據集:涵蓋網絡安全大語言模型訓練的多個階段,包括預訓練(Primus - Seed 和 Primus - FineWeb)、指令微調(Primus - Instruct)和蒸餾推理數據(Primus - Reasoning)。
- 顯著的性能提升:基於這些數據集訓練的模型,如 Llama - Primus - Base,在多個網絡安全基準測試中取得了顯著的性能提升。
- 行業領先貢獻:作為行業領導者,Trend Micro貢獻了這些強大且經過效率優化的模型和數據集。
📚 詳細文檔
項目介紹
大語言模型(LLMs)近年來展現出了卓越的通用性,在金融、法律和生物醫學等專業領域有著廣闊的應用前景。然而,在網絡安全領域,我們發現缺乏專門為大語言模型預訓練設計的開源數據集——儘管許多研究表明大語言模型在預訓練階段獲取知識。為了填補這一空白,我們推出了一系列涵蓋網絡安全大語言模型訓練多個階段的數據集,基於這些數據集和Llama - 3.1 - 8B - Instruct,我們開發了 Llama - Primus - Base、Llama - Primus - Merged 和 Llama - Primus - Reasoning。本模型卡片介紹的是 Llama - Primus - Base。
⚠️ 重要提示
本項目不包含Trend Micro的任何客戶信息。
網絡安全基準測試結果
指標 (5 - shot, 無思維鏈) |
Llama - 3.1 - 8B - Instruct |
Llama - Primus - Base |
CISSP(書籍考試) |
0.7073 |
0.7230 |
CTI - Bench(多項選擇題) |
0.6420 |
0.6676 |
CTI - Bench(CVE → CWE) |
0.5910 |
0.6780 |
CTI - Bench(CVSS,越低越好) |
1.2712 |
1.0912 |
CTI - Bench(ATE) |
0.2721 |
0.3140 |
CyberMetric(500) |
0.8560 |
0.8660 |
SecEval |
0.4966 |
0.5007 |
綜合得分 |
2.29 |
2.66 ↑15.88% 📈 |
CTI - Bench(CVSS)使用平均絕對偏差進行評分(越低越好),CTI - ATE使用F1分數,其他指標使用準確率。綜合得分(Agg.)是所有基準測試得分的總和,其中CTI - Bench(CVSS)取負值。
參考資料:
關於 Primus
Primus 是Trend Micro開創的輕量級、最先進的開源網絡安全語言模型和數據集家族。通過我們前沿的研究計劃和先進技術開發而成,這些資源與推動我們企業級 [Trend Cybertron](https://newsroom.trendmicro.com/2025 - 02 - 25 - Trend - Micro - Puts - Industry - Ahead - of - Cyberattacks - with - Industrys - First - Proactive - Cybersecurity - AI) 解決方案的創新基礎相同。作為網絡安全領域的行業領導者,Trend Micro自豪地將這些強大且經過效率優化的模型和數據集貢獻給社區,同時保持定義我們全球安全標準的卓越性和可靠性。
📄 許可證
本模型基於MIT許可證,但你還必須遵守Llama 3.1社區許可協議。
信息表格
屬性 |
詳情 |
模型類型 |
文本生成 |
基礎模型 |
meta - llama/Llama - 3.1 - 8B - Instruct |
訓練數據 |
trendmicro - ailab/Primus - FineWeb、trendmicro - ailab/Primus - Seed |
庫名稱 |
transformers |
標籤 |
網絡安全、預訓練 |
額外授權字段 |
所屬機構、國家、使用目的(研究、商業、其他)、職位(學生、研究畢業生、人工智能研究員、人工智能開發者/工程師、網絡安全研究員、記者、其他)、地理位置(IP地址定位) |