🚀 钓鱼邮件检测BERT模型 - PhishMail
本仓库提供了一个经过微调的BERT模型,专门用于检测钓鱼邮件。该模型通过分析邮件正文文本,将邮件分类为钓鱼邮件或正常邮件。
🚀 快速开始
安装依赖
使用以下命令安装所有必需的库:
!pip install transformers torch
加载模型
from transformers import BertForSequenceClassification, BertTokenizer
import torch
model_name = 'jagan-raj/PhishMail'
model = BertForSequenceClassification.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)
model.eval()
使用模型进行预测
email_text = "Your email content here"
inputs = tokenizer(
email_text,
return_tensors="pt",
truncation=True,
padding='max_length'
)
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predictions = torch.argmax(logits, dim=-1)
result = "This is a phishing email." if predictions.item() == 1 else "This is a legitimate email."
print(f"Prediction: {result}")
✨ 主要特性
- 强大的架构:基于BERT(双向编码器表征)架构,能够进行双向上下文理解,有效捕捉邮件文本中的语义信息。
- 精准分类:经过精心微调,可准确地将邮件分类为钓鱼邮件或正常邮件,为邮件安全提供有力保障。
- 数据多样性:在包含钓鱼邮件和正常邮件的精心策划数据集上进行微调,确保模型能够适应各种邮件内容和结构。
📦 安装指南
使用以下命令安装所有必需的库:
!pip install transformers torch
💻 使用示例
基础用法
email_text = "Your email content here"
inputs = tokenizer(
email_text,
return_tensors="pt",
truncation=True,
padding='max_length'
)
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predictions = torch.argmax(logits, dim=-1)
result = "This is a phishing email." if predictions.item() == 1 else "This is a legitimate email."
print(f"Prediction: {result}")
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
BERT(双向编码器表征) |
任务 |
钓鱼检测(二分类:钓鱼邮件 vs 正常邮件) |
微调 |
在精心策划的包含钓鱼邮件和正常邮件的数据集上进行微调,确保邮件内容和结构的多样性。 |
目标 |
通过对邮件正文文本的上下文理解,准确识别钓鱼尝试,增强邮件安全性。 |
开发者 |
Jagan Raj |
模型类型 |
google-bert/bert-base-uncased |
许可证 |
免费使用 |
数据集 |
zefang-liu/phishing-email-dataset |
评估
TrainOutput(global_step=6297, training_loss=0.07093968526965307, metrics={'train_runtime': 5545.442, 'train_samples_per_second': 9.08, 'train_steps_per_second': 1.136, 'total_flos': 1.32489571926528e+16, 'train_loss': 0.07093968526965307, 'epoch': 3.0})
模型总结
这个经过微调的BERT模型旨在检测钓鱼邮件。它基于强大的BERT(双向编码器表征)架构,进行二分类,将邮件标记为钓鱼邮件或正常邮件。
该模型在包含钓鱼邮件和正常邮件的数据集上进行了微调,确保能够理解钓鱼内容中常见的模式和语言线索。通过利用上下文理解,它可以识别文本中的细微差异,从而区分恶意意图和正常通信。这使其成为邮件安全和反钓鱼防御的有效工具。
📄 许可证
本模型免费供所有人使用。
作者 - Jagan Raj
LinkedIn链接