🚀 URLBERT-Tiny-v3恶意URL分类器
这是一个轻量级的BERT版本,专门针对将URL分为四类进行了微调:良性、网络钓鱼、恶意软件和网站篡改。
🚀 快速开始
URLBERT-Tiny-v3恶意URL分类器是一个轻量级的BERT版本,可将URL分为良性、网络钓鱼、恶意软件和网站篡改四类。你可以使用Hugging Face的transformers
库来使用该模型进行URL分类。
✨ 主要特性
- 轻量级设计,参数仅369万个,模型权重大小为14.8MB。
- 针对URL分类进行微调,可准确识别良性、网络钓鱼、恶意软件和网站篡改四类URL。
📦 安装指南
文档未提供具体安装步骤,可参考Hugging Face的transformers
库安装方法。
💻 使用示例
基础用法
from transformers import BertTokenizerFast, BertForSequenceClassification, pipeline
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Используемое устройство: {device}")
model_name = "CrabInHoney/urlbert-tiny-v3-malicious-url-classifier"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)
model.to(device)
classifier = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
device=0 if torch.cuda.is_available() else -1,
return_all_scores=True
)
test_urls = [
"wikiobits.com/Obits/TonyProudfoot",
"http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb",
]
label_mapping = {
"LABEL_0": "benign",
"LABEL_1": "defacement",
"LABEL_2": "malware",
"LABEL_3": "phishing"
}
for url in test_urls:
results = classifier(url)
print(f"\nURL: {url}")
for result in results[0]:
label = result['label']
score = result['score']
friendly_label = label_mapping.get(label, label)
print(f"Класс: {friendly_label}, вероятность: {score:.4f}")
示例输出
URL: wikiobits.com/Obits/TonyProudfoot
Класс: benign, вероятность: 0.9953
Класс: defacement, вероятность: 0.0000
Класс: malware, вероятность: 0.0000
Класс: phishing, вероятность: 0.0046
URL: http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb
Класс: benign, вероятность: 0.0000
Класс: defacement, вероятность: 0.0001
Класс: malware, вероятность: 0.9998
Класс: phishing, вероятность: 0.0001
📚 详细文档
模型详情
模型评估结果
该模型在测试集上进行了评估,分类指标如下:
类别 |
精确率 |
召回率 |
F1分数 |
良性 |
0.987695 |
0.993717 |
0.990697 |
网站篡改 |
0.988510 |
0.998963 |
0.993709 |
恶意软件 |
0.988291 |
0.960332 |
0.974111 |
网络钓鱼 |
0.958425 |
0.930826 |
0.944423 |
准确率 |
0.983738 |
0.983738 |
0.983738 |
宏平均 |
0.980730 |
0.970959 |
0.975735 |
加权平均 |
0.983615 |
0.983738 |
0.983627 |
📄 许可证
本模型采用Apache-2.0许可证。
新版本:CrabInHoney/urlbert-tiny-v4-malicious-url-classifier