CySecBERT開源網絡安全模型 - 基於430萬條數據優化網絡安全任務

首頁

Cysecbert

由markusbayer開發

CySecBERT是針對網絡安全任務優化的領域適配版BERT模型，基於430萬條網絡安全領域數據訓練而成。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #網絡安全文本分析 #領域自適應BERT #CVE漏洞檢測

下載量 679

發布時間 : 1/31/2023

模型概述

該模型是基於BERT基礎版微調的網絡安全專用語言模型，適用於網絡安全相關的文本分析任務。

模型特點

領域適配訓練

專門針對網絡安全領域數據進行訓練，包含推特、博客、學術論文和CVE漏洞庫等多種來源

減輕災難性遺忘

採用特殊訓練流程設計，有效減輕了領域適配訓練中的災難性遺忘問題

大規模訓練數據

基於包含430萬條網絡安全領域相關數據的專業數據集訓練

模型能力

網絡安全文本分類

漏洞描述分析

威脅情報提取

安全事件識別

使用案例

網絡安全分析

CVE漏洞描述分析

分析漏洞描述文本，提取關鍵安全信息

威脅情報處理

從安全博客和推特中提取有價值的威脅情報

學術研究

安全論文分析

處理和分析網絡安全領域的學術論文

🚀 CySecBERT模型卡片

CySecBERT是BERT模型的領域適配版本，專為網絡安全任務量身定製。它基於一個包含430萬條與網絡安全領域相關的Twitter、博客、論文和通用漏洞披露（CVE）條目的網絡安全數據集進行訓練。

🚀 快速開始

CySecBERT是專門為網絡安全任務定製的領域適配模型，能有效處理該領域的相關數據。

✨ 主要特性

基於大規模網絡安全數據集訓練，能更好地適應網絡安全領域的語言特點。
採用BERT-base架構，具有強大的語言理解能力。

📚 詳細文檔

模型詳情

開發者：Markus Bayer、Philipp Kuehn、Ramin Shanehsaz和Christian Reuter
模型類型：BERT-base
語言（NLP）：英語
微調基礎模型：bert-base-uncased

模型來源

倉庫地址：https://github.com/PEASEC/CySecBERT
論文地址：https://dl.acm.org/doi/abs/10.1145/3652594 和 https://arxiv.org/abs/2212.02974

偏差、風險、侷限性和建議

我們想強調的是，我們沒有明確關注和分析數據或所得模型中的社會偏差。雖然這在大多數應用場景中可能不會造成太大危害，但肯定存在一些嚴重依賴這些偏差的應用，任何形式的歧視都可能產生嚴重後果。作為作者，我們想對在這類場景中使用該模型提出警告。儘管如此，我們秉持開源理念，認識到開源的巨大影響力，因此將思考權交給模型使用者，並借鑑開源社區之前的眾多討論。

訓練詳情

訓練數據

請參考https://github.com/PEASEC/cybersecurity_dataset

訓練過程

我們專門對CySecBERT進行了訓練，使其不會受到災難性遺忘的太大影響。更多細節可在論文中找到。

評估

我們進行了許多不同的網絡安全和通用評估。具體細節可在論文中找到。

引用

如果您想引用該模型，可以使用以下BibTeX格式：

@article{10.1145/3652594,
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
year = {2024},
issue_date = {May 2024},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {27},
number = {2},
issn = {2471-2566},
url = {https://doi.org/10.1145/3652594},
doi = {10.1145/3652594},
journal = {ACM Trans. Priv. Secur.},
month = {apr},
articleno = {18},
numpages = {20},
keywords = {Language model, cybersecurity BERT, cybersecurity dataset}
}

或者

@misc{https://doi.org/10.48550/arxiv.2212.02974,
  doi = {10.48550/ARXIV.2212.02974},
  url = {https://arxiv.org/abs/2212.02974},
  author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
  keywords = {Cryptography and Security (cs.CR), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}

模型卡片作者

Markus Bayer

模型卡片聯繫方式

bayer@peasec.tu-darmstadt.de

📄 許可證

本模型採用Apache-2.0許可證。

信息表格

屬性	詳情
模型類型	BERT-base
訓練數據	請參考https://github.com/PEASEC/cybersecurity_dataset
開發者	Markus Bayer、Philipp Kuehn、Ramin Shanehsaz和Christian Reuter
微調基礎模型	bert-base-uncased
倉庫地址	https://github.com/PEASEC/CySecBERT
論文地址	https://dl.acm.org/doi/abs/10.1145/3652594 和 https://arxiv.org/abs/2212.02974
語言（NLP）	英語
模型卡片作者	Markus Bayer
模型卡片聯繫方式	bayer@peasec.tu-darmstadt.de
許可證	Apache-2.0