🚀 CySecBERT模型卡片
CySecBERT是BERT模型的领域适配版本,专为网络安全任务量身定制。它基于一个包含430万条与网络安全领域相关的Twitter、博客、论文和通用漏洞披露(CVE)条目的网络安全数据集进行训练。
🚀 快速开始
CySecBERT是专门为网络安全任务定制的领域适配模型,能有效处理该领域的相关数据。
✨ 主要特性
- 基于大规模网络安全数据集训练,能更好地适应网络安全领域的语言特点。
- 采用BERT-base架构,具有强大的语言理解能力。
📚 详细文档
模型详情
- 开发者:Markus Bayer、Philipp Kuehn、Ramin Shanehsaz和Christian Reuter
- 模型类型:BERT-base
- 语言(NLP):英语
- 微调基础模型:bert-base-uncased
模型来源
- 仓库地址:https://github.com/PEASEC/CySecBERT
- 论文地址:https://dl.acm.org/doi/abs/10.1145/3652594 和 https://arxiv.org/abs/2212.02974
偏差、风险、局限性和建议
我们想强调的是,我们没有明确关注和分析数据或所得模型中的社会偏差。虽然这在大多数应用场景中可能不会造成太大危害,但肯定存在一些严重依赖这些偏差的应用,任何形式的歧视都可能产生严重后果。作为作者,我们想对在这类场景中使用该模型提出警告。尽管如此,我们秉持开源理念,认识到开源的巨大影响力,因此将思考权交给模型使用者,并借鉴开源社区之前的众多讨论。
训练详情
训练数据
请参考https://github.com/PEASEC/cybersecurity_dataset
训练过程
我们专门对CySecBERT进行了训练,使其不会受到灾难性遗忘的太大影响。更多细节可在论文中找到。
评估
我们进行了许多不同的网络安全和通用评估。具体细节可在论文中找到。
引用
如果您想引用该模型,可以使用以下BibTeX格式:
@article{10.1145/3652594,
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
year = {2024},
issue_date = {May 2024},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {27},
number = {2},
issn = {2471-2566},
url = {https://doi.org/10.1145/3652594},
doi = {10.1145/3652594},
journal = {ACM Trans. Priv. Secur.},
month = {apr},
articleno = {18},
numpages = {20},
keywords = {Language model, cybersecurity BERT, cybersecurity dataset}
}
或者
@misc{https://doi.org/10.48550/arxiv.2212.02974,
doi = {10.48550/ARXIV.2212.02974},
url = {https://arxiv.org/abs/2212.02974},
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
keywords = {Cryptography and Security (cs.CR), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
模型卡片作者
Markus Bayer
模型卡片联系方式
bayer@peasec.tu-darmstadt.de
📄 许可证
本模型采用Apache-2.0许可证。
信息表格
属性 |
详情 |
模型类型 |
BERT-base |
训练数据 |
请参考https://github.com/PEASEC/cybersecurity_dataset |
开发者 |
Markus Bayer、Philipp Kuehn、Ramin Shanehsaz和Christian Reuter |
微调基础模型 |
bert-base-uncased |
仓库地址 |
https://github.com/PEASEC/CySecBERT |
论文地址 |
https://dl.acm.org/doi/abs/10.1145/3652594 和 https://arxiv.org/abs/2212.02974 |
语言(NLP) |
英语 |
模型卡片作者 |
Markus Bayer |
模型卡片联系方式 |
bayer@peasec.tu-darmstadt.de |
许可证 |
Apache-2.0 |