🚀 CyNER 2.0:用於網絡安全的特定領域命名實體識別模型
CyNER 2.0 是一款專門為網絡安全領域設計的命名實體識別(NER)模型。它基於 DeBERTa 變壓器模型構建,並經過微調以識別與網絡安全相關的實體,包括指標、惡意軟件、組織、系統和漏洞等,為網絡安全分析提供有力支持。
✨ 主要特性
- 模型架構:採用 DeBERTa(具有解纏注意力的解碼增強 BERT)V3 base。
- 主要用例:針對網絡安全實體進行命名實體識別(NER)。
- 性能指標:在增強數據集上實現了 91.88% 的 F1 分數。
- 訓練數據:在原始 CyNER 數據集和來自各種開源網絡安全平臺的增強數據集上進行微調。
📦 安裝指南
要使用 CyNER 2.0 模型,首先需要從 Hugging Face 安裝 transformers
庫:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoModelForTokenClassification, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("PranavaKailash/CyNER-2.0-DeBERTa-v3-base")
model = AutoModelForTokenClassification.from_pretrained("PranavaKailash/CyNER-2.0-DeBERTa-v3-base")
高級用法
from transformers import pipeline
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer)
text = "A recent attack by WannaCry ransomware caused significant damage to Windows systems."
entities = ner_pipeline(text)
print(entities)
輸出示例
[
{"entity": "B-Malware", "score": 0.99, "index": 5, "word": "WannaCry", "start": 19, "end": 28},
{"entity": "B-System", "score": 0.98, "index": 10, "word": "Windows", "start": 54, "end": 61}
]
📚 詳細文檔
模型概述
CyNER 2.0 是專門為網絡安全領域設計的命名實體識別(NER)模型。它基於 DeBERTa 變壓器模型構建,並經過微調以識別與網絡安全相關的實體,包括指標、惡意軟件、組織、系統和漏洞等。
模型描述
基於 DeBERTa 的 CyNER 2.0 模型使用多種數據集進行了微調,包括原始 CyNER 數據集和包含更多近期威脅模式及額外實體標籤的增強數據集。微調過程涉及在序列數據上訓練模型,與其他基線模型相比,提高了精確率、召回率和 F1 分數。
預期用途
CyNER 2.0 模型旨在協助網絡安全分析師自動從非結構化或結構化的網絡安全報告中提取相關實體。它可以集成到威脅情報、自動報告生成等工具和應用程序中。
識別的實體示例
CyNER 2.0 模型經過訓練,可識別網絡安全相關文本中的以下實體:
- 指標:識別攻擊指標(IoC),如 IP 地址、文件哈希、URL 等。
- 惡意軟件:識別惡意軟件、勒索軟件或其他惡意軟件的名稱(例如,WannaCry、DroidRAT)。
- 組織:識別參與網絡安全或成為網絡威脅目標的組織名稱(例如,Microsoft、FBI)。
- 系統:識別參與網絡安全事件的操作系統、軟件和硬件(例如,Windows 10、Linux 內核)。
- 漏洞:提取對特定漏洞的引用(例如,CVE - 2023 - XXXX)。
- 日期:識別與網絡安全事件相關的日期。
- 位置:識別與網絡安全事件相關的地理位置。
- 威脅組織:識別參與網絡攻擊的威脅組織或行為者的名稱。
🔧 技術細節
數據集
該模型在兩個數據集上進行了訓練:
- 原始 CyNER 數據集:專注於網絡安全領域的基礎實體。
- 增強數據集:擴展了新的實體類型和額外的現實世界網絡安全威脅。
超參數
- 學習率:2e - 5
- 訓練輪數:3
- 批次大小:8
- 權重衰減:0.01
評估
- 精確率:91.06%
- 召回率:92.72%
- F1 分數:91.88%
GitHub 倉庫
倉庫鏈接
侷限性
- 實體不平衡:模型在識別不太常見的實體(如漏洞)時可能表現不佳。
- 領域特定性:該模型專門針對網絡安全領域進行了調整,可能無法很好地推廣到其他 NER 任務。
引用
如果您在研究中使用此模型,請引用以下論文:
@misc{yet_to_update,
title={CyNER 2.0: A Name Entity Recognition Model for Cyber Security},
author={Pranava Kailash},
year={2024},
url={Yet to update}
}
📄 許可證
本項目採用 MIT 許可證。
信息表格
屬性 |
詳情 |
模型類型 |
基於 DeBERTa V3 base 的命名實體識別模型 |
訓練數據 |
原始 CyNER 數據集和增強數據集(來自各種開源網絡安全平臺) |