urlbert-tiny-v3開源網址分類模型 - 免費部署精準識別四類網址

首頁

Urlbert Tiny V3 Malicious Url Classifier

由CrabInHoney開發

輕量級BERT模型，專門針對網址分類任務進行微調，能分類良性、釣魚、惡意軟件和篡改四類網址

文本分類

Transformers

支持多種語言開源協議:Apache-2.0 #輕量級BERT #惡意網址檢測 #釣魚識別

下載量 452

發布時間 : 2/19/2025

模型概述

基於BERT架構的輕量級模型，用於檢測和分類惡意網址，支持識別釣魚網站、惡意軟件分發站點和篡改鏈接

模型特點

輕量級設計

僅369萬參數，模型權重大小14.8MB，適合資源受限環境部署

高準確率

整體準確率達98.37%，各類別F1分數均在94%以上

多類別檢測

可同時識別釣魚、惡意軟件、篡改和良性四類網址

專門優化

針對URL結構特點優化的BERT變體，提升網址分類效果

模型能力

網址安全檢測

釣魚網站識別

惡意軟件鏈接檢測

篡改鏈接識別

即時網址分類

使用案例

網絡安全防護

瀏覽器安全插件

集成到瀏覽器中即時檢測訪問網址的安全性

阻止用戶訪問釣魚或惡意網站

郵件安全過濾

掃描郵件中的可疑鏈接

有效識別釣魚郵件中的惡意鏈接

企業安全

網絡流量監控

分析企業內網流量中的可疑網址訪問

及時發現內部員工訪問危險網站的行為

🚀 URLBERT-Tiny-v3惡意URL分類器

這是一個輕量級的BERT版本，專門針對將URL分為四類進行了微調：良性、網絡釣魚、惡意軟件和網站篡改。

🚀 快速開始

URLBERT-Tiny-v3惡意URL分類器是一個輕量級的BERT版本，可將URL分為良性、網絡釣魚、惡意軟件和網站篡改四類。你可以使用Hugging Face的transformers庫來使用該模型進行URL分類。

✨ 主要特性

輕量級設計，參數僅369萬個，模型權重大小為14.8MB。
針對URL分類進行微調，可準確識別良性、網絡釣魚、惡意軟件和網站篡改四類URL。

📦 安裝指南

文檔未提供具體安裝步驟，可參考Hugging Face的transformers庫安裝方法。

💻 使用示例

基礎用法

from transformers import BertTokenizerFast, BertForSequenceClassification, pipeline
import torch

# Определение устройства (GPU или CPU)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Используемое устройство: {device}")

# Загрузка модели и токенизатора
model_name = "CrabInHoney/urlbert-tiny-v3-malicious-url-classifier"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)
model.to(device)

# Создание pipeline для классификации
classifier = pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
    device=0 if torch.cuda.is_available() else -1,
    return_all_scores=True
)

# Примеры URL для тестирования
test_urls = [
    "wikiobits.com/Obits/TonyProudfoot",
    "http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb",
]

# Маппинг меток на понятные названия классов
label_mapping = {
    "LABEL_0": "benign",
    "LABEL_1": "defacement",
    "LABEL_2": "malware",
    "LABEL_3": "phishing"
}

# Классификация URL
for url in test_urls:
    results = classifier(url)
    print(f"\nURL: {url}")
    for result in results[0]: 
        label = result['label']
        score = result['score']
        friendly_label = label_mapping.get(label, label)
        print(f"Класс: {friendly_label}, вероятность: {score:.4f}")

示例輸出

URL: wikiobits.com/Obits/TonyProudfoot
Класс: benign, вероятность: 0.9953
Класс: defacement, вероятность: 0.0000
Класс: malware, вероятность: 0.0000
Класс: phishing, вероятность: 0.0046

URL: http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb
Класс: benign, вероятность: 0.0000
Класс: defacement, вероятность: 0.0001
Класс: malware, вероятность: 0.9998
Класс: phishing, вероятность: 0.0001

📚 詳細文檔

模型詳情

屬性	詳情
模型大小	369萬個參數
張量類型	F32
模型權重大小	14.8MB
基礎模型	CrabInHoney/urlbert-tiny-base-v3
數據集	惡意URL數據集

模型評估結果

該模型在測試集上進行了評估，分類指標如下：

類別	精確率	召回率	F1分數
良性	0.987695	0.993717	0.990697
網站篡改	0.988510	0.998963	0.993709
惡意軟件	0.988291	0.960332	0.974111
網絡釣魚	0.958425	0.930826	0.944423
準確率	0.983738	0.983738	0.983738
宏平均	0.980730	0.970959	0.975735
加權平均	0.983615	0.983738	0.983627