phishing-email-detection-distilbert_v2.1开源模型 - 免费部署精准检测邮件和URL钓鱼风险

首页

Phishing Email Detection Distilbert V2.1

由 cybersectony 开发

该模型基于DistilBERT构建，经过微调后可对邮件和URL进行多标签分类，判断其是否安全或存在潜在的网络钓鱼风险。

文本分类

Transformers

英语开源协议:Apache-2.0 #钓鱼邮件识别 #URL安全检测 #多标签分类

下载量 237

发布时间 : 10/21/2024

模型简介

一个基于DistilBERT架构的轻量级模型，专门用于检测网络钓鱼邮件和URL，能够高效识别潜在的网络安全威胁。

模型特点

轻量高效

基于DistilBERT架构，在保持高性能的同时显著减小模型体积

多标签分类

能够同时识别邮件内容和URL的安全性

高准确率

在测试集上达到97.7%的F1分数

模型能力

邮件内容安全分析

URL安全性检测

网络钓鱼风险识别

使用案例

企业安全

企业邮件安全过滤

自动扫描企业邮箱中的可疑邮件

可有效拦截98%以上的钓鱼邮件

个人安全

个人邮箱保护

帮助个人用户识别可疑邮件和链接

显著降低点击钓鱼链接的风险

🚀 基于DistilBERT的网络钓鱼邮件检测模型

本模型基于DistilBERT构建，经过微调后可对邮件和URL进行多标签分类，判断其是否安全或存在潜在的网络钓鱼风险。

🚀 快速开始

本模型基于DistilBERT，经过微调可用于对邮件和URL进行多标签分类，判断其是否安全或存在潜在的网络钓鱼风险。

安装

pip install transformers
pip install torch

快速上手

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("your-username/model-name")
model = AutoModelForSequenceClassification.from_pretrained("your-username/model-name")

def predict_email(email_text):
    # 预处理和分词
    inputs = tokenizer(
        email_text,
        return_tensors="pt",
        truncation=True,
        max_length=512
    )
    
    # 获取预测结果
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
    # 获取每个类别的概率
    probs = predictions[0].tolist()
    
    # 创建标签字典
    labels = {
        "legitimate_email": probs[0],
        "phishing_url": probs[1],
        "legitimate_url": probs[2],
        "phishing_url_alt": probs[3]
    }
    
    # 确定最可能的分类
    max_label = max(labels.items(), key=lambda x: x[1])
    
    return {
        "prediction": max_label[0],
        "confidence": max_label[1],
        "all_probabilities": labels
    }

示例用法

# 示例用法
email = """
Dear User,
Your account security needs immediate attention. Please verify your credentials.
Click here: http://suspicious-link.com
"""

result = predict_email(email)
print(f"Prediction: {result['prediction']}")
print(f"Confidence: {result['confidence']:.2%}")
print("\nAll probabilities:")
for label, prob in result['all_probabilities'].items():
    print(f"{label}: {prob:.2%}")

✨ 主要特性

基于DistilBERT架构，进行了多标签分类的微调。
能够对邮件和URL进行分类，判断其是否安全或存在潜在的网络钓鱼风险。

📦 安装指南

pip install transformers
pip install torch

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("your-username/model-name")
model = AutoModelForSequenceClassification.from_pretrained("your-username/model-name")

def predict_email(email_text):
    # 预处理和分词
    inputs = tokenizer(
        email_text,
        return_tensors="pt",
        truncation=True,
        max_length=512
    )
    
    # 获取预测结果
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    
    # 获取每个类别的概率
    probs = predictions[0].tolist()
    
    # 创建标签字典
    labels = {
        "legitimate_email": probs[0],
        "phishing_url": probs[1],
        "legitimate_url": probs[2],
        "phishing_url_alt": probs[3]
    }
    
    # 确定最可能的分类
    max_label = max(labels.items(), key=lambda x: x[1])
    
    return {
        "prediction": max_label[0],
        "confidence": max_label[1],
        "all_probabilities": labels
    }

高级用法

# 示例用法
email = """
Dear User,
Your account security needs immediate attention. Please verify your credentials.
Click here: http://suspicious-link.com
"""

result = predict_email(email)
print(f"Prediction: {result['prediction']}")
print(f"Confidence: {result['confidence']:.2%}")
print("\nAll probabilities:")
for label, prob in result['all_probabilities'].items():
    print(f"{label}: {prob:.2%}")