🚀 土耳其语垃圾短信检测模型
本模型基于dbmdz/bert-base-turkish-128k-uncased
微调而来,专为检测土耳其语短信中的垃圾信息设计。它能够精准地将短信分类为正常或垃圾两类。
✨ 主要特性
- 基于预训练的
dbmdz/bert-base-turkish-128k-uncased
模型,针对土耳其语短信垃圾检测任务进行微调。
- 能够准确区分正常短信和垃圾短信。
📦 安装指南
此部分原文档未提供安装步骤,跳过。
💻 使用示例
基础用法
你可以使用Hugging Face的Transformers库来使用这个模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "BaranKanat/BerTurk-SpamSMS"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
test_sms = "2000 TL DENEME BONUSU KAZANDINIZ !!! YATIRIM SARTI YOK KAZANC ve CEKIM LIMITI YOK."
inputs = tokenizer(test_sms, return_tensors="pt", truncation=True, padding=True)
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class = torch.argmax(logits, dim=1).item()
labels = ["Normal", "Spam"]
print(f"Mesaj: {test_sms}")
print(f"Sonuç: {labels[predicted_class]} ({predicted_class})")
📚 详细文档
训练
模型使用BERTurk
分词器和分类器进行训练,具体配置如下:
- 模型:
dbmdz/bert-base-turkish-128k-uncased
- 优化器:AdamW
- 学习率:5e - 5
- 训练轮数:4
训练数据集包含垃圾短信和正常短信,确保了数据的平衡。
性能
模型的各项指标将在更多数据集上测试后更新:
- 准确率:待更新。
- F1分数:待更新。
- 精确率:待更新。
- 召回率:待更新。
数据集
用于微调的数据集是土耳其语短信收集数据集,可在Kaggle上公开获取。该数据集包含2536条垃圾短信和2215条正常短信。
关于数据集
该数据集是标记为垃圾或正常的土耳其语短信集合,数据来自土耳其不同地区不同年龄段的人群。
如果你使用此数据集,请引用以下文献:
Karasoy, O., Ballı, S. Spam SMS Detection for Turkish Language with Deep Text Analysis and Deep Learning Methods. Arab J Sci Eng (2021). https://doi.org/10.1007/s13369-021-06187-1
许可证
本模型采用CreativeML OpenRAIL - M许可证。
- 允许操作:在给予适当引用的前提下,你可以非商业性地使用、分享和修改此模型。
- 禁止操作:严禁将此模型或其衍生作品用于商业用途或出售。
更多详情请参考CreativeML OpenRAIL - M许可证条款。