🚀 CySecBERT模型卡片
CySecBERT是BERT模型的領域適配版本,專為網絡安全任務量身定製。它基於一個包含430萬條與網絡安全領域相關的Twitter、博客、論文和通用漏洞披露(CVE)條目的網絡安全數據集進行訓練。
🚀 快速開始
CySecBERT是專門為網絡安全任務定製的領域適配模型,能有效處理該領域的相關數據。
✨ 主要特性
- 基於大規模網絡安全數據集訓練,能更好地適應網絡安全領域的語言特點。
- 採用BERT-base架構,具有強大的語言理解能力。
📚 詳細文檔
模型詳情
- 開發者:Markus Bayer、Philipp Kuehn、Ramin Shanehsaz和Christian Reuter
- 模型類型:BERT-base
- 語言(NLP):英語
- 微調基礎模型:bert-base-uncased
模型來源
- 倉庫地址:https://github.com/PEASEC/CySecBERT
- 論文地址:https://dl.acm.org/doi/abs/10.1145/3652594 和 https://arxiv.org/abs/2212.02974
偏差、風險、侷限性和建議
我們想強調的是,我們沒有明確關注和分析數據或所得模型中的社會偏差。雖然這在大多數應用場景中可能不會造成太大危害,但肯定存在一些嚴重依賴這些偏差的應用,任何形式的歧視都可能產生嚴重後果。作為作者,我們想對在這類場景中使用該模型提出警告。儘管如此,我們秉持開源理念,認識到開源的巨大影響力,因此將思考權交給模型使用者,並借鑑開源社區之前的眾多討論。
訓練詳情
訓練數據
請參考https://github.com/PEASEC/cybersecurity_dataset
訓練過程
我們專門對CySecBERT進行了訓練,使其不會受到災難性遺忘的太大影響。更多細節可在論文中找到。
評估
我們進行了許多不同的網絡安全和通用評估。具體細節可在論文中找到。
引用
如果您想引用該模型,可以使用以下BibTeX格式:
@article{10.1145/3652594,
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
year = {2024},
issue_date = {May 2024},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {27},
number = {2},
issn = {2471-2566},
url = {https://doi.org/10.1145/3652594},
doi = {10.1145/3652594},
journal = {ACM Trans. Priv. Secur.},
month = {apr},
articleno = {18},
numpages = {20},
keywords = {Language model, cybersecurity BERT, cybersecurity dataset}
}
或者
@misc{https://doi.org/10.48550/arxiv.2212.02974,
doi = {10.48550/ARXIV.2212.02974},
url = {https://arxiv.org/abs/2212.02974},
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
keywords = {Cryptography and Security (cs.CR), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
模型卡片作者
Markus Bayer
模型卡片聯繫方式
bayer@peasec.tu-darmstadt.de
📄 許可證
本模型採用Apache-2.0許可證。
信息表格
屬性 |
詳情 |
模型類型 |
BERT-base |
訓練數據 |
請參考https://github.com/PEASEC/cybersecurity_dataset |
開發者 |
Markus Bayer、Philipp Kuehn、Ramin Shanehsaz和Christian Reuter |
微調基礎模型 |
bert-base-uncased |
倉庫地址 |
https://github.com/PEASEC/CySecBERT |
論文地址 |
https://dl.acm.org/doi/abs/10.1145/3652594 和 https://arxiv.org/abs/2212.02974 |
語言(NLP) |
英語 |
模型卡片作者 |
Markus Bayer |
模型卡片聯繫方式 |
bayer@peasec.tu-darmstadt.de |
許可證 |
Apache-2.0 |