PhishMail開源釣魚郵件檢測模型 - 精準區分釣魚與正常郵件

首頁

Phishmail

由jagan-raj開發

基於BERT架構微調的釣魚郵件檢測模型，能夠準確識別釣魚郵件與正常郵件。

文本分類

Transformers

英語#釣魚郵件檢測 #BERT微調 #郵件安全

下載量 79

發布時間 : 1/11/2025

模型概述

該模型通過分析郵件正文內容，利用BERT的上下文理解能力，將郵件分類為釣魚郵件或正常郵件，增強電子郵件安全性。

模型特點

上下文理解

利用BERT的雙向Transformer架構，能夠理解郵件內容的上下文關係，識別釣魚郵件中的隱藏線索。

高準確率

在釣魚郵件數據集上微調，訓練損失低至0.07，表現出色。

易用性

提供簡單的API接口，只需幾行代碼即可集成到現有系統中。

模型能力

文本分類

釣魚郵件檢測

自然語言理解

使用案例

電子郵件安全

企業郵件過濾

集成到企業郵件系統中，自動過濾潛在的釣魚郵件。

減少員工點擊釣魚郵件的風險

個人郵件保護

用於個人郵箱客戶端插件，標記可疑郵件。

提升個人網絡安全防護

🚀 釣魚郵件檢測BERT模型 - PhishMail

本倉庫提供了一個經過微調的BERT模型，專門用於檢測釣魚郵件。該模型通過分析郵件正文文本，將郵件分類為釣魚郵件或正常郵件。

🚀 快速開始

安裝依賴

使用以下命令安裝所有必需的庫：

!pip install transformers torch

加載模型

from transformers import BertForSequenceClassification, BertTokenizer
import torch

# 指定Hugging Face模型倉庫名稱
model_name = 'jagan-raj/PhishMail'

# 加載用於釣魚檢測的微調BERT模型
model = BertForSequenceClassification.from_pretrained(model_name)

# 加載微調模型對應的分詞器
tokenizer = BertTokenizer.from_pretrained(model_name)

# 將模型設置為評估模式以進行推理
model.eval()

使用模型進行預測

# 輸入待分類的郵件文本
email_text = "Your email content here"

# 對輸入文本進行分詞和預處理
# 將郵件文本轉換為令牌ID，應用截斷/填充，並創建張量
inputs = tokenizer(
    email_text, 
    return_tensors="pt",        # 以PyTorch格式輸出張量
    truncation=True,            # 如果文本超過最大長度則進行截斷
    padding='max_length'        # 將文本填充到最大序列長度
)

# 使用模型進行預測
with torch.no_grad():           # 禁用梯度計算以加快推理速度
    outputs = model(**inputs)   # 獲取模型輸出
    logits = outputs.logits     # 提取原始預測分數（對數幾率）
    predictions = torch.argmax(logits, dim=-1)  # 確定預測類別（0或1）

# 解釋預測結果
# 將預測結果映射到相應的標籤：1表示“釣魚郵件”，0表示“正常郵件”
result = "This is a phishing email." if predictions.item() == 1 else "This is a legitimate email."

# 打印預測結果
print(f"Prediction: {result}")

✨ 主要特性

強大的架構：基於BERT（雙向編碼器表徵）架構，能夠進行雙向上下文理解，有效捕捉郵件文本中的語義信息。
精準分類：經過精心微調，可準確地將郵件分類為釣魚郵件或正常郵件，為郵件安全提供有力保障。
數據多樣性：在包含釣魚郵件和正常郵件的精心策劃數據集上進行微調，確保模型能夠適應各種郵件內容和結構。

📦 安裝指南

使用以下命令安裝所有必需的庫：

!pip install transformers torch

💻 使用示例

基礎用法

# 輸入待分類的郵件文本
email_text = "Your email content here"

# 對輸入文本進行分詞和預處理
# 將郵件文本轉換為令牌ID，應用截斷/填充，並創建張量
inputs = tokenizer(
    email_text, 
    return_tensors="pt",        # 以PyTorch格式輸出張量
    truncation=True,            # 如果文本超過最大長度則進行截斷
    padding='max_length'        # 將文本填充到最大序列長度
)

# 使用模型進行預測
with torch.no_grad():           # 禁用梯度計算以加快推理速度
    outputs = model(**inputs)   # 獲取模型輸出
    logits = outputs.logits     # 提取原始預測分數（對數幾率）
    predictions = torch.argmax(logits, dim=-1)  # 確定預測類別（0或1）

# 解釋預測結果
# 將預測結果映射到相應的標籤：1表示“釣魚郵件”，0表示“正常郵件”
result = "This is a phishing email." if predictions.item() == 1 else "This is a legitimate email."

# 打印預測結果
print(f"Prediction: {result}")

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	BERT（雙向編碼器表徵）
任務	釣魚檢測（二分類：釣魚郵件 vs 正常郵件）
微調	在精心策劃的包含釣魚郵件和正常郵件的數據集上進行微調，確保郵件內容和結構的多樣性。
目標	通過對郵件正文文本的上下文理解，準確識別釣魚嘗試，增強郵件安全性。
開發者	Jagan Raj
模型類型	google-bert/bert-base-uncased
許可證	免費使用
數據集	zefang-liu/phishing-email-dataset

評估

TrainOutput(global_step=6297, training_loss=0.07093968526965307, metrics={'train_runtime': 5545.442, 'train_samples_per_second': 9.08, 'train_steps_per_second': 1.136, 'total_flos': 1.32489571926528e+16, 'train_loss': 0.07093968526965307, 'epoch': 3.0})