🚀 URLBERT-Tiny-v3惡意URL分類器
這是一個輕量級的BERT版本,專門針對將URL分為四類進行了微調:良性、網絡釣魚、惡意軟件和網站篡改。
🚀 快速開始
URLBERT-Tiny-v3惡意URL分類器是一個輕量級的BERT版本,可將URL分為良性、網絡釣魚、惡意軟件和網站篡改四類。你可以使用Hugging Face的transformers
庫來使用該模型進行URL分類。
✨ 主要特性
- 輕量級設計,參數僅369萬個,模型權重大小為14.8MB。
- 針對URL分類進行微調,可準確識別良性、網絡釣魚、惡意軟件和網站篡改四類URL。
📦 安裝指南
文檔未提供具體安裝步驟,可參考Hugging Face的transformers
庫安裝方法。
💻 使用示例
基礎用法
from transformers import BertTokenizerFast, BertForSequenceClassification, pipeline
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Используемое устройство: {device}")
model_name = "CrabInHoney/urlbert-tiny-v3-malicious-url-classifier"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)
model.to(device)
classifier = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
device=0 if torch.cuda.is_available() else -1,
return_all_scores=True
)
test_urls = [
"wikiobits.com/Obits/TonyProudfoot",
"http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb",
]
label_mapping = {
"LABEL_0": "benign",
"LABEL_1": "defacement",
"LABEL_2": "malware",
"LABEL_3": "phishing"
}
for url in test_urls:
results = classifier(url)
print(f"\nURL: {url}")
for result in results[0]:
label = result['label']
score = result['score']
friendly_label = label_mapping.get(label, label)
print(f"Класс: {friendly_label}, вероятность: {score:.4f}")
示例輸出
URL: wikiobits.com/Obits/TonyProudfoot
Класс: benign, вероятность: 0.9953
Класс: defacement, вероятность: 0.0000
Класс: malware, вероятность: 0.0000
Класс: phishing, вероятность: 0.0046
URL: http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb
Класс: benign, вероятность: 0.0000
Класс: defacement, вероятность: 0.0001
Класс: malware, вероятность: 0.9998
Класс: phishing, вероятность: 0.0001
📚 詳細文檔
模型詳情
模型評估結果
該模型在測試集上進行了評估,分類指標如下:
類別 |
精確率 |
召回率 |
F1分數 |
良性 |
0.987695 |
0.993717 |
0.990697 |
網站篡改 |
0.988510 |
0.998963 |
0.993709 |
惡意軟件 |
0.988291 |
0.960332 |
0.974111 |
網絡釣魚 |
0.958425 |
0.930826 |
0.944423 |
準確率 |
0.983738 |
0.983738 |
0.983738 |
宏平均 |
0.980730 |
0.970959 |
0.975735 |
加權平均 |
0.983615 |
0.983738 |
0.983627 |
📄 許可證
本模型採用Apache-2.0許可證。
新版本:CrabInHoney/urlbert-tiny-v4-malicious-url-classifier