🚀 惡意URL檢測模型
這是一個經過微調的 BERT-LoRA 模型,用於檢測惡意URL,包括釣魚、惡意軟件和網站篡改等威脅。
🚀 快速開始
此模型是一個基於BERT的微調分類器,旨在即時檢測惡意URL。它採用了低秩自適應(LoRA) 技術進行高效微調,在降低計算成本的同時保持了較高的準確性。
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "your-huggingface-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
url = "http://example.com/login"
inputs = tokenizer(url, return_tensors="pt", truncation=True, padding=True, max_length=128)
with torch.no_grad():
outputs = model(**inputs)
prediction = torch.argmax(outputs.logits).item()
label_map = {0: "良性", 1: "網站篡改", 2: "釣魚", 3: "惡意軟件"}
print(f"預測結果: {label_map[prediction]}")
✨ 主要特性
- 該模型將URL分為四類:
- 它實現了98%的驗證準確率和0.965的F1分數,確保了強大的檢測能力。
📚 詳細文檔
預期用途
使用場景
- 為網絡安全工具提供即時URL分類
- 檢測釣魚和惡意軟件,保障在線安全
- 集成到瀏覽器擴展中,提供即時威脅警報
- 為安全運營中心(SOC)進行安全監控
模型細節
屬性 |
詳情 |
模型類型 |
基於BERT的URL分類器 |
微調方法 |
LoRA(低秩自適應) |
基礎模型 |
bert-base-uncased |
參數數量 |
1.1億 |
數據集 |
Kaggle惡意URL數據集(約651,191個樣本) |
最大序列長度 |
128 |
框架 |
🤗 transformers 、torch 、peft |
訓練細節
- 批量大小:
16
- 訓練輪數:
5
- 學習率:
2e-5
- 優化器:帶權重衰減的AdamW
- 損失函數:加權交叉熵
- 評估策略:基於輪次
- 微調策略:對BERT層應用LoRA
評估結果
指標 |
值 |
準確率 |
98% |
精確率 |
0.96 |
召回率 |
0.97 |
F1分數 |
0.965 |
各類別性能
類別 |
精確率 |
召回率 |
F1分數 |
良性 |
0.98 |
0.99 |
0.985 |
網站篡改 |
0.98 |
0.99 |
0.985 |
釣魚 |
0.93 |
0.94 |
0.935 |
惡意軟件 |
0.95 |
0.96 |
0.955 |
部署選項
Streamlit Web應用
- 可部署在 Streamlit Cloud、AWS或Google Cloud 上。
- 提供用戶友好的界面,進行即時URL分析。
瀏覽器擴展(計劃中)
- 對訪問的網頁進行即時掃描。
- 提供帶有置信度分數的動態威脅警報。
API集成
- 提供REST API進行批量URL分析。
- 支持安全運營中心(SOC)。
侷限性與偏差
⚠️ 重要提示
- 該模型可能會誤分類模仿合法網站的複雜釣魚URL。
- 需要定期更新以應對不斷演變的威脅。
- 如果訓練數據中未涵蓋未來的威脅,可能會存在偏差。
訓練數據與引用
數據來源
數據集來自 Kaggle惡意URL數據集:
📌 數據集鏈接
BibTeX引用
@article{maliciousurl2025,
author = {Gleyzie Tongo, Dr. Farnaz Farid, Dr. Ala Al-Areqi, Dr. Farhad Ahamed},
title = {Fine-Tuned BERT for Malicious URL Detection},
year = {2025},
institution = {Western Sydney University}
}
聯繫信息
如有諮詢、合作或反饋需求,請通過領英聯繫:
🔗 Gleyzie Tongo