PhishMail开源钓鱼邮件检测模型 - 精准区分钓鱼与正常邮件

首页

Phishmail

由 jagan-raj 开发

基于BERT架构微调的钓鱼邮件检测模型，能够准确识别钓鱼邮件与正常邮件。

文本分类

Transformers

英语#钓鱼邮件检测 #BERT微调 #邮件安全

下载量 79

发布时间 : 1/11/2025

模型简介

该模型通过分析邮件正文内容，利用BERT的上下文理解能力，将邮件分类为钓鱼邮件或正常邮件，增强电子邮件安全性。

模型特点

上下文理解

利用BERT的双向Transformer架构，能够理解邮件内容的上下文关系，识别钓鱼邮件中的隐藏线索。

高准确率

在钓鱼邮件数据集上微调，训练损失低至0.07，表现出色。

易用性

提供简单的API接口，只需几行代码即可集成到现有系统中。

模型能力

文本分类

钓鱼邮件检测

自然语言理解

使用案例

电子邮件安全

企业邮件过滤

集成到企业邮件系统中，自动过滤潜在的钓鱼邮件。

减少员工点击钓鱼邮件的风险

个人邮件保护

用于个人邮箱客户端插件，标记可疑邮件。

提升个人网络安全防护

🚀 钓鱼邮件检测BERT模型 - PhishMail

本仓库提供了一个经过微调的BERT模型，专门用于检测钓鱼邮件。该模型通过分析邮件正文文本，将邮件分类为钓鱼邮件或正常邮件。

🚀 快速开始

安装依赖

使用以下命令安装所有必需的库：

!pip install transformers torch

加载模型

from transformers import BertForSequenceClassification, BertTokenizer
import torch

# 指定Hugging Face模型仓库名称
model_name = 'jagan-raj/PhishMail'

# 加载用于钓鱼检测的微调BERT模型
model = BertForSequenceClassification.from_pretrained(model_name)

# 加载微调模型对应的分词器
tokenizer = BertTokenizer.from_pretrained(model_name)

# 将模型设置为评估模式以进行推理
model.eval()

使用模型进行预测

# 输入待分类的邮件文本
email_text = "Your email content here"

# 对输入文本进行分词和预处理
# 将邮件文本转换为令牌ID，应用截断/填充，并创建张量
inputs = tokenizer(
    email_text, 
    return_tensors="pt",        # 以PyTorch格式输出张量
    truncation=True,            # 如果文本超过最大长度则进行截断
    padding='max_length'        # 将文本填充到最大序列长度
)

# 使用模型进行预测
with torch.no_grad():           # 禁用梯度计算以加快推理速度
    outputs = model(**inputs)   # 获取模型输出
    logits = outputs.logits     # 提取原始预测分数（对数几率）
    predictions = torch.argmax(logits, dim=-1)  # 确定预测类别（0或1）

# 解释预测结果
# 将预测结果映射到相应的标签：1表示“钓鱼邮件”，0表示“正常邮件”
result = "This is a phishing email." if predictions.item() == 1 else "This is a legitimate email."

# 打印预测结果
print(f"Prediction: {result}")

✨ 主要特性

强大的架构：基于BERT（双向编码器表征）架构，能够进行双向上下文理解，有效捕捉邮件文本中的语义信息。
精准分类：经过精心微调，可准确地将邮件分类为钓鱼邮件或正常邮件，为邮件安全提供有力保障。
数据多样性：在包含钓鱼邮件和正常邮件的精心策划数据集上进行微调，确保模型能够适应各种邮件内容和结构。

📦 安装指南

使用以下命令安装所有必需的库：

!pip install transformers torch

💻 使用示例

基础用法

# 输入待分类的邮件文本
email_text = "Your email content here"

# 对输入文本进行分词和预处理
# 将邮件文本转换为令牌ID，应用截断/填充，并创建张量
inputs = tokenizer(
    email_text, 
    return_tensors="pt",        # 以PyTorch格式输出张量
    truncation=True,            # 如果文本超过最大长度则进行截断
    padding='max_length'        # 将文本填充到最大序列长度
)

# 使用模型进行预测
with torch.no_grad():           # 禁用梯度计算以加快推理速度
    outputs = model(**inputs)   # 获取模型输出
    logits = outputs.logits     # 提取原始预测分数（对数几率）
    predictions = torch.argmax(logits, dim=-1)  # 确定预测类别（0或1）

# 解释预测结果
# 将预测结果映射到相应的标签：1表示“钓鱼邮件”，0表示“正常邮件”
result = "This is a phishing email." if predictions.item() == 1 else "This is a legitimate email."

# 打印预测结果
print(f"Prediction: {result}")

📚 详细文档

模型详情

属性	详情
模型类型	BERT（双向编码器表征）
任务	钓鱼检测（二分类：钓鱼邮件 vs 正常邮件）
微调	在精心策划的包含钓鱼邮件和正常邮件的数据集上进行微调，确保邮件内容和结构的多样性。
目标	通过对邮件正文文本的上下文理解，准确识别钓鱼尝试，增强邮件安全性。
开发者	Jagan Raj
模型类型	google-bert/bert-base-uncased
许可证	免费使用
数据集	zefang-liu/phishing-email-dataset

评估

TrainOutput(global_step=6297, training_loss=0.07093968526965307, metrics={'train_runtime': 5545.442, 'train_samples_per_second': 9.08, 'train_steps_per_second': 1.136, 'total_flos': 1.32489571926528e+16, 'train_loss': 0.07093968526965307, 'epoch': 3.0})