spam-mail-classifier开源邮件分类模型 - 精准识别垃圾与非垃圾邮件主题

首页

Spam Mail Classifier

由 Goodmotion 开发

基于microsoft/Multilingual-MiniLM-L12-H384微调的文本分类模型，用于将邮件主题分类为垃圾邮件(SPAM)或非垃圾邮件(NOSPAM)。

文本分类

Transformers

开源协议:Apache-2.0 #多语言邮件分类 #轻量级Transformer #垃圾邮件检测

下载量 943

发布时间 : 12/9/2024

模型简介

本模型用于邮件主题的垃圾邮件检测，支持多语言文本分类任务。

模型特点

多语言支持

基于Multilingual-MiniLM模型，支持多种语言的垃圾邮件检测

轻量级模型

使用MiniLM架构，在保持性能的同时减少计算资源需求

简单易用

提供清晰的API接口，可快速集成到现有系统中

模型能力

文本分类

垃圾邮件检测

多语言文本处理

使用案例

电子邮件管理

垃圾邮件过滤

自动识别并过滤垃圾邮件

提高邮件处理效率，减少垃圾邮件干扰

邮件分类系统

将邮件自动分类为垃圾邮件或正常邮件

优化邮件管理流程

安全防护

钓鱼邮件检测

识别潜在的钓鱼邮件和欺诈内容

增强电子邮件安全性

🚀 垃圾邮件分类器

本模型基于microsoft/Multilingual-MiniLM-L12-H384进行微调，用于将电子邮件主题分类为垃圾邮件（SPAM）或非垃圾邮件（NOSPAM）。

🚀 快速开始

本模型基于microsoft/Multilingual-MiniLM-L12-H384进行微调，用于将电子邮件主题分类为垃圾邮件（SPAM）或非垃圾邮件（NOSPAM）。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "Goodmotion/spam-mail-classifier"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name
)

text = "Félicitations ! Vous avez gagné un iPhone."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
print(outputs.logits)

高级用法

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "Goodmotion/spam-mail-classifier"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

texts = [
'Join us for a webinar on AI innovations',
'Urgent: Verify your account immediately.',
'Meeting rescheduled to 3 PM',
'Happy Birthday!',
'Limited time offer: Act now!',
'Join us for a webinar on AI innovations',
'Claim your free prize now!',
'You have unclaimed rewards waiting!',
'Weekly newsletter from Tech World',
'Update on the project status',
'Lunch tomorrow at 12:30?',
'Get rich quick with this amazing opportunity!',
'Invoice for your recent purchase',
'Don\'t forget: Gym session at 6 AM',
'Join us for a webinar on AI innovations',
'bonjour comment allez vous ?',
'Documents suite à notre rendez-vous',
'Valentin Dupond mentioned you in a comment',
'Bolt x Supabase = 🤯',
'Modification site web de la société',
'Image de mise en avant sur les articles',
'Bring new visitors to your site',
'Le Cloud Éthique sans bullshit',
'Remix Newsletter #25: React Router v7',
'Votre essai auprès de X va bientôt prendre fin',
'Introducing a Google Docs integration, styles and more in Claude.ai',
'Carte de crédit sur le point d’expirer sur Cloudflare'
]
inputs = tokenizer(texts, padding=True, truncation=True, max_length=128, return_tensors="pt")
outputs = model(**inputs)

# Convertir les logits en probabilités avec softmax
logits = outputs.logits
probabilities = torch.softmax(logits, dim=1)

# Décoder les classes pour chaque texte
labels = ["NOSPAM", "SPAM"]  # Mapping des indices à des labels
results = [
    {"text": text, "label": labels[torch.argmax(prob).item()], "confidence": prob.max().item()}
    for text, prob in zip(texts, probabilities)
]

# Afficher les résultats
for result in results:
    print(f"Texte : {result['text']}")
    print(f"Résultat : {result['label']} (Confiance : {result['confidence']:.2%})\n")