🚀 土耳其語垃圾短信檢測模型
本模型基於dbmdz/bert-base-turkish-128k-uncased
微調而來,專為檢測土耳其語短信中的垃圾信息設計。它能夠精準地將短信分類為正常或垃圾兩類。
✨ 主要特性
- 基於預訓練的
dbmdz/bert-base-turkish-128k-uncased
模型,針對土耳其語短信垃圾檢測任務進行微調。
- 能夠準確區分正常短信和垃圾短信。
📦 安裝指南
此部分原文檔未提供安裝步驟,跳過。
💻 使用示例
基礎用法
你可以使用Hugging Face的Transformers庫來使用這個模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "BaranKanat/BerTurk-SpamSMS"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
test_sms = "2000 TL DENEME BONUSU KAZANDINIZ !!! YATIRIM SARTI YOK KAZANC ve CEKIM LIMITI YOK."
inputs = tokenizer(test_sms, return_tensors="pt", truncation=True, padding=True)
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class = torch.argmax(logits, dim=1).item()
labels = ["Normal", "Spam"]
print(f"Mesaj: {test_sms}")
print(f"Sonuç: {labels[predicted_class]} ({predicted_class})")
📚 詳細文檔
訓練
模型使用BERTurk
分詞器和分類器進行訓練,具體配置如下:
- 模型:
dbmdz/bert-base-turkish-128k-uncased
- 優化器:AdamW
- 學習率:5e - 5
- 訓練輪數:4
訓練數據集包含垃圾短信和正常短信,確保了數據的平衡。
性能
模型的各項指標將在更多數據集上測試後更新:
- 準確率:待更新。
- F1分數:待更新。
- 精確率:待更新。
- 召回率:待更新。
數據集
用於微調的數據集是土耳其語短信收集數據集,可在Kaggle上公開獲取。該數據集包含2536條垃圾短信和2215條正常短信。
關於數據集
該數據集是標記為垃圾或正常的土耳其語短信集合,數據來自土耳其不同地區不同年齡段的人群。
如果你使用此數據集,請引用以下文獻:
Karasoy, O., Ballı, S. Spam SMS Detection for Turkish Language with Deep Text Analysis and Deep Learning Methods. Arab J Sci Eng (2021). https://doi.org/10.1007/s13369-021-06187-1
許可證
本模型採用CreativeML OpenRAIL - M許可證。
- 允許操作:在給予適當引用的前提下,你可以非商業性地使用、分享和修改此模型。
- 禁止操作:嚴禁將此模型或其衍生作品用於商業用途或出售。
更多詳情請參考CreativeML OpenRAIL - M許可證條款。