🚀 DarkBERT-finetuned-ner
このモデルは、不明なデータセットで s2w-ai/DarkBERT をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.6416
- 適合率: 0.4628
- 再現率: 0.5470
- F1値: 0.5014
- 正解率: 0.8901
✨ 主な機能
モデルの説明
VERISBERTAは、重要インフラの分野における脅威インテリジェンス分析を向上させるために設計された高度な言語モデルです。このモデルは、セキュリティインシデントの説明を解釈することに特化しており、Verizonのサイバーセキュリティインシデントデータベースから抽出された実際のインシデントデータでトレーニングする際に、ドメイン固有の語彙を使用します。
このモデルはdarkBERTモデルに基づいており、VCDBのデータでファインチューニングされて、重要なエンティティや用語を識別できるようになっています。VERISBERTAは、サイバーセキュリティの専門家にとって有用なツールとなり、重要インフラにおける重要な脅威インテリジェンスデータの収集と分析を容易にします。
想定される用途と制限
機械学習モデルは、VERIS語彙(イベント記録とインシデント共有のための語彙)とその4Aカテゴリ(アクター、資産、アクション、属性)を使用して、サイバーセキュリティインシデントの文脈における固有表現抽出(NER)の分類と識別のために開発されました。このモデルはBERTアーキテクチャに基づいており、VCDBから抽出された説明を使用して特別に用意されたコーパスで事前学習されています。これにより、VERIS言語とこの環境の特性をよりよく理解することができます。このモデルは、評価タスクで良好な性能を示し、正解率0.88に達しました。
今後の展望
NERモデルの性能を向上させるために、より高度なテキスト前処理技術の使用や他の機械学習モデルの組み込みなど、さまざまな技術を探索することができます。VERIS語彙を拡張して、サイバーセキュリティインシデントの分析に関連する新しい固有表現を含めることができます。また、HFで利用可能なこの種の問題に特化した他のモデルを分析することで、インシデントの説明におけるCIA属性のタイプを識別するためのテキスト分類などの新しいタスクでモデルの機能を拡張することができます。
📦 インストール
トレーニングと評価データ
VCDBは、VERIS形式でエンコードされた公開されたセキュリティインシデントの無料の公開リポジトリです。このデータセットには、マルウェア攻撃、侵入、データ漏洩、サービス拒否(DoS)攻撃など、幅広いインシデントに関する情報が含まれており、CITチームが現在および新興の脅威をよりよく理解するのに役立ちます。
VCDBは、セキュリティインシデントの傾向、最も一般的な攻撃タイプ、脅威行為者、ターゲットセクターなどを分析するために使用できます。また、セキュリティインシデントの識別と防止に役立つ脅威インテリジェンスモデルをトレーニングするためにも使用できます。
トレーニング手順
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["test"],
data_collator=data_collator,
tokenizer=tokenizer,
compute_metrics=compute_metrics
)
trainer.train()
トレーニングハイパーパラメータ
トレーニング中には以下のハイパーパラメータが使用されました。
- 学習率: 0.0002
- トレーニングバッチサイズ: 8
- 評価バッチサイズ: 8
- 乱数シード: 42
- 勾配累積ステップ: 2
- 総トレーニングバッチサイズ: 16
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラのタイプ: 線形
- エポック数: 10
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
適合率 |
再現率 |
F1値 |
正解率 |
記録なし |
1.0 |
111 |
0.3933 |
0.3563 |
0.4337 |
0.3912 |
0.8726 |
記録なし |
2.0 |
222 |
0.3491 |
0.4345 |
0.5672 |
0.4921 |
0.8886 |
記録なし |
3.0 |
333 |
0.3991 |
0.4284 |
0.5405 |
0.4780 |
0.8795 |
記録なし |
4.0 |
444 |
0.3969 |
0.4565 |
0.5797 |
0.5108 |
0.8877 |
0.2744 |
5.0 |
555 |
0.4276 |
0.4737 |
0.5690 |
0.5170 |
0.8887 |
0.2744 |
6.0 |
666 |
0.5237 |
0.4918 |
0.5637 |
0.5253 |
0.8862 |
0.2744 |
7.0 |
777 |
0.5472 |
0.4855 |
0.5503 |
0.5159 |
0.8877 |
0.2744 |
8.0 |
888 |
0.6319 |
0.4581 |
0.5699 |
0.5079 |
0.8855 |
0.2744 |
9.0 |
999 |
0.6511 |
0.4901 |
0.5744 |
0.5289 |
0.8901 |
0.0627 |
10.0 |
1110 |
0.6758 |
0.4900 |
0.5681 |
0.5262 |
0.8899 |
フレームワークのバージョン
- Transformers 4.42.4
- Pytorch 2.3.1+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。