🚀 DarkBERT-finetuned-ner
本模型是基於s2w-ai/DarkBERT在未知數據集上微調得到的版本。它在評估集上取得了以下成績:
- 損失值:0.6416
- 精確率:0.4628
- 召回率:0.5470
- F1值:0.5014
- 準確率:0.8901
✨ 主要特性
VERISBERTA是一款先進的語言模型,旨在提升關鍵基礎設施領域的威脅情報分析能力。它專注於解讀安全事件描述,在使用從Verizon網絡安全事件數據庫中提取的真實事件數據進行訓練時,會使用特定領域的詞彙。
該模型基於darkBERT模型,並使用VCDB的數據進行了微調,以識別關鍵實體和術語。VERISBERTA旨在成為網絡安全專業人員的實用工具,便於收集和分析關鍵基礎設施中的關鍵威脅情報數據。
📚 詳細文檔
預期用途與侷限性
已開發出一種機器學習模型,用於在網絡安全事件的背景下,使用VERIS詞彙表(事件記錄和事件共享詞彙表)及其4A類別(行為者、資產、行動和屬性)對命名實體(NER)進行分類和識別。該模型基於BERT架構,並在專門為這項工作準備的語料庫上進行了預訓練,該語料庫包含從VCDB中提取的描述,這使其能夠更好地理解VERIS語言和該環境的特徵。該模型在評估任務中表現良好,準確率達到0.88。
未來工作方向
可以探索不同的技術來提高NER模型的性能,例如使用更先進的文本預處理技術或結合其他機器學習模型。可以擴展VERIS詞彙表,以包含與網絡安全事件分析相關的新命名實體。可以通過新的任務擴展模型的功能,例如文本分類,通過分析HF中更適合此類問題的其他模型,來識別事件描述中的CIA屬性類型。
訓練和評估數據
VCDB是一個免費的公共存儲庫,包含以VERIS格式編碼的公開披露的安全事件。該數據集包含廣泛的事件信息,包括惡意軟件攻擊、入侵、數據洩露和拒絕服務(DoS)攻擊,以及各種現實世界的安全事件,這可以幫助CIT團隊更好地瞭解當前和新興的威脅。
VCDB可用於分析安全事件的趨勢,例如最常見的攻擊類型、威脅行為者和目標行業。它還可用於訓練威脅情報模型,幫助識別和預防安全事件,這也是本文的目的。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
訓練過程
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets["train"],
eval_dataset=tokenized_datasets["test"],
data_collator=data_collator,
tokenizer=tokenizer,
compute_metrics=compute_metrics
)
trainer.train()
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:0.0002
- 訓練批次大小:8
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:16
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:10
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
精確率 |
召回率 |
F1值 |
準確率 |
無日誌記錄 |
1.0 |
111 |
0.3933 |
0.3563 |
0.4337 |
0.3912 |
0.8726 |
無日誌記錄 |
2.0 |
222 |
0.3491 |
0.4345 |
0.5672 |
0.4921 |
0.8886 |
無日誌記錄 |
3.0 |
333 |
0.3991 |
0.4284 |
0.5405 |
0.4780 |
0.8795 |
無日誌記錄 |
4.0 |
444 |
0.3969 |
0.4565 |
0.5797 |
0.5108 |
0.8877 |
0.2744 |
5.0 |
555 |
0.4276 |
0.4737 |
0.5690 |
0.5170 |
0.8887 |
0.2744 |
6.0 |
666 |
0.5237 |
0.4918 |
0.5637 |
0.5253 |
0.8862 |
0.2744 |
7.0 |
777 |
0.5472 |
0.4855 |
0.5503 |
0.5159 |
0.8877 |
0.2744 |
8.0 |
888 |
0.6319 |
0.4581 |
0.5699 |
0.5079 |
0.8855 |
0.2744 |
9.0 |
999 |
0.6511 |
0.4901 |
0.5744 |
0.5289 |
0.8901 |
0.0627 |
10.0 |
1110 |
0.6758 |
0.4900 |
0.5681 |
0.5262 |
0.8899 |
框架版本
- Transformers 4.42.4
- Pytorch 2.3.1+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1
📄 許可證
本模型採用CC BY-NC 4.0許可證。