🚀 CySecBERTモデルカード
CySecBERTは、サイバーセキュリティタスクに特化したBERTモデルのドメイン適応版です。このモデルは、サイバーセキュリティドメインに関連するTwitter、ブログ、論文、CVEの430万件のエントリーからなるサイバーセキュリティデータセットに基づいて開発されています。
🚀 クイックスタート
CySecBERTは、サイバーセキュリティ分野のタスクに特化したBERTモデルです。このモデルを使用することで、サイバーセキュリティ関連のテキスト分析や分類などのタスクを効果的に行うことができます。
✨ 主な機能
- サイバーセキュリティドメインに特化したBERTモデルで、関連タスクに最適化されています。
- 430万件のサイバーセキュリティ関連データセットを使用して訓練されています。
📚 ドキュメント
モデル詳細
- 開発者: Markus Bayer, Philipp Kuehn, Ramin Shanehsaz, Christian Reuter
- モデルタイプ: BERT-base
- 言語 (NLP): 英語
- ファインチューニング元のモデル: bert-base-uncased
モデルのソース
- リポジトリ: https://github.com/PEASEC/CySecBERT
- 論文: https://dl.acm.org/doi/abs/10.1145/3652594 および https://arxiv.org/abs/2212.02974
バイアス、リスク、制限事項、および推奨事項
私たちは、データや結果として得られるモデルにおける社会的バイアスに明示的に焦点を当てて分析していません。これは、ほとんどのアプリケーションコンテキストではそれほど深刻な問題にはならないかもしれませんが、これらのバイアスに大きく依存するアプリケーションも確かに存在し、いかなる形の差別も重大な結果をもたらす可能性があります。著者として、このようなコンテキストでのモデルの使用に関して警告を発したいと思います。しかしながら、私たちはオープンソースの精神を目指し、それがもたらす大きな影響を認識しているため、オープンソースコミュニティでこれまで行われてきた多くの議論を踏まえ、モデルのユーザーに思考を委ねます。
訓練詳細
訓練データ
詳細は https://github.com/PEASEC/cybersecurity_dataset を参照してください。
訓練手順
私たちは、CySecBERTが大規模な忘却の影響をあまり受けないように特別に訓練しました。詳細は論文を参照してください。
評価
私たちは、多様なサイバーセキュリティおよび一般的な評価を行いました。詳細は論文を参照してください。
引用
BibTeX:
@article{10.1145/3652594,
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
year = {2024},
issue_date = {May 2024},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {27},
number = {2},
issn = {2471-2566},
url = {https://doi.org/10.1145/3652594},
doi = {10.1145/3652594},
journal = {ACM Trans. Priv. Secur.},
month = {apr},
articleno = {18},
numpages = {20},
keywords = {Language model, cybersecurity BERT, cybersecurity dataset}
}
または
@misc{https://doi.org/10.48550/arxiv.2212.02974,
doi = {10.48550/ARXIV.2212.02974},
url = {https://arxiv.org/abs/2212.02974},
author = {Bayer, Markus and Kuehn, Philipp and Shanehsaz, Ramin and Reuter, Christian},
keywords = {Cryptography and Security (cs.CR), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {CySecBERT: A Domain-Adapted Language Model for the Cybersecurity Domain},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}
モデルカードの作成者
Markus Bayer
モデルカードの連絡先
bayer@peasec.tu-darmstadt.de
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。