final-complete-malicious-url-model開源模型 - 免費部署高效檢測惡意網址威脅

首頁

Final Complete Malicious Url Model

由r3ddkahili開發

一個基於BERT-LoRA的微調模型，用於高效檢測惡意網址，包括釣魚、惡意軟件和篡改威脅。

文本分類

Transformers

英語開源協議:Apache-2.0 #BERT-LoRA微調 #即時網址檢測 #高精度分類

下載量 434

發布時間 : 1/21/2025

模型概述

該模型採用低秩自適應（LoRA）技術對BERT進行微調，能夠即時分類網址為良性、篡改、釣魚或惡意軟件，準確率達98%。

模型特點

高效微調

採用LoRA（低秩自適應）技術，在保持高精度的同時降低計算成本。

高準確率

驗證準確率達到98%，F1分數為0.965，確保強大的檢測能力。

多類別檢測

能夠分類四種威脅類型：良性、篡改、釣魚和惡意軟件。

模型能力

惡意網址檢測

釣魚網址識別

惡意軟件網址識別

篡改網址識別

使用案例

網絡安全

即時網址分類

集成到網絡安全工具中，即時檢測和分類訪問的網址。

準確率98%

瀏覽器擴展

計劃開發瀏覽器擴展，提供即時威脅警報。

安全監控

SOC集成

用於安全運營中心（SOC）的安全監控和威脅分析。

🚀 惡意URL檢測模型

這是一個經過微調的 BERT-LoRA 模型，用於檢測惡意URL，包括釣魚、惡意軟件和網站篡改等威脅。

🚀 快速開始

此模型是一個基於BERT的微調分類器，旨在即時檢測惡意URL。它採用了低秩自適應（LoRA） 技術進行高效微調，在降低計算成本的同時保持了較高的準確性。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 加載模型和分詞器
model_name = "your-huggingface-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 示例URL
url = "http://example.com/login"

# 分詞並預測
inputs = tokenizer(url, return_tensors="pt", truncation=True, padding=True, max_length=128)
with torch.no_grad():
    outputs = model(**inputs)
    prediction = torch.argmax(outputs.logits).item()

# 將預測結果映射到標籤
label_map = {0: "良性", 1: "網站篡改", 2: "釣魚", 3: "惡意軟件"}
print(f"預測結果: {label_map[prediction]}")

✨ 主要特性

該模型將URL分為四類：
- 良性
- 網站篡改
- 釣魚
- 惡意軟件
它實現了98%的驗證準確率和0.965的F1分數，確保了強大的檢測能力。

📚 詳細文檔

預期用途

使用場景

為網絡安全工具提供即時URL分類
檢測釣魚和惡意軟件，保障在線安全
集成到瀏覽器擴展中，提供即時威脅警報
為安全運營中心（SOC）進行安全監控

模型細節

屬性	詳情
模型類型	基於BERT的URL分類器
微調方法	LoRA（低秩自適應）
基礎模型	`bert-base-uncased`
參數數量	1.1億
數據集	Kaggle惡意URL數據集（約651,191個樣本）
最大序列長度	`128`
框架	🤗 `transformers`、`torch`、`peft`

訓練細節

批量大小：16
訓練輪數：5
學習率：2e-5
優化器：帶權重衰減的AdamW
損失函數：加權交叉熵
評估策略：基於輪次
微調策略：對BERT層應用LoRA

評估結果

指標	值
準確率	98%
精確率	0.96
召回率	0.97
F1分數	0.965

各類別性能

類別	精確率	召回率	F1分數
良性	0.98	0.99	0.985
網站篡改	0.98	0.99	0.985
釣魚	0.93	0.94	0.935
惡意軟件	0.95	0.96	0.955

部署選項

Streamlit Web應用

可部署在 Streamlit Cloud、AWS或Google Cloud 上。
提供用戶友好的界面，進行即時URL分析。

瀏覽器擴展（計劃中）

對訪問的網頁進行即時掃描。
提供帶有置信度分數的動態威脅警報。

API集成

提供REST API進行批量URL分析。
支持安全運營中心（SOC）。

侷限性與偏差

⚠️ 重要提示

該模型可能會誤分類模仿合法網站的複雜釣魚URL。

需要定期更新以應對不斷演變的威脅。

如果訓練數據中未涵蓋未來的威脅，可能會存在偏差。

訓練數據與引用

數據來源

數據集來自 Kaggle惡意URL數據集：
📌 數據集鏈接

BibTeX引用

@article{maliciousurl2025,
  author    = {Gleyzie Tongo, Dr. Farnaz Farid, Dr. Ala Al-Areqi, Dr. Farhad Ahamed},
  title     = {Fine-Tuned BERT for Malicious URL Detection},
  year      = {2025},
  institution = {Western Sydney University}
}