🚀 スパムSMS検出モデル
このモデルは、トルコ語のSMSスパム検出のために dbmdz/bert-base-turkish-128k-uncased
からファインチューニングされたものです。テキストメッセージを スパム または 通常 のいずれかに分類するように設計されています。
🚀 クイックスタート
このモデルは、トルコ語のSMSメッセージをスパムまたは通常に分類するために設計されています。以下に使用方法の概要を示します。
✨ 主な機能
- トルコ語のSMSメッセージを スパム または 通常 に分類します。
BERTurk
トークナイザーと分類器を使用して訓練されています。
📦 インストール
このモデルを使用するには、Hugging Face Transformersライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers torch
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "BaranKanat/BerTurk-SpamSMS"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
test_sms = "2000 TL DENEME BONUSU KAZANDINIZ !!! YATIRIM SARTI YOK KAZANC ve CEKIM LIMITI YOK."
inputs = tokenizer(test_sms, return_tensors="pt", truncation=True, padding=True)
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class = torch.argmax(logits, dim=1).item()
labels = ["Normal", "Spam"]
print(f"Mesaj: {test_sms}")
print(f"Sonuç: {labels[predicted_class]} ({predicted_class})")
📚 ドキュメント
訓練
このモデルは、以下の設定で BERTurk
トークナイザーと分類器を使用して訓練されました。
プロパティ |
詳細 |
モデルタイプ |
dbmdz/bert-base-turkish-128k-uncased |
最適化アルゴリズム |
AdamW |
学習率 |
5e-5 |
エポック数 |
4 |
使用されたデータセットには、スパムと通常の両方のSMSメッセージが含まれており、バランスの取れた表現が保証されています。
パフォーマンス
このモデルは、以下のメトリクスを達成しました。
- 精度 (Accuracy): より多くのデータセットでのテスト後に更新されます。
- F1スコア: より多くのデータセットでのテスト後に更新されます。
- 適合率 (Precision): より多くのデータセットでのテスト後に更新されます。
- 再現率 (Recall): より多くのデータセットでのテスト後に更新されます。
データセット
ファインチューニングに使用されたデータセットは、Kaggle で公開されている Turkish SMS Collection Dataset です。このデータセットには、2,536件のスパムメッセージと2,215件の通常のメッセージが含まれています。
データセットについて
このデータセットは、スパムまたは通常としてタグ付けされたトルコ語のSMSメッセージのコレクションです。トルコのさまざまな地域に住むさまざまな年齢層の人々から収集されました。
このデータセットを使用する場合は、以下を引用してください。
Karasoy, O., Ballı, S. Spam SMS Detection for Turkish Language with Deep Text Analysis and Deep Learning Methods. Arab J Sci Eng (2021). https://doi.org/10.1007/s13369-021-06187-1
ライセンス
このモデルは、CreativeML OpenRAIL-M ライセンスの下でライセンスされています。
- 許可されること: 適切な帰属がされる限り、非商用目的でモデルを使用、共有、および変更することができます。
- 許可されないこと: このモデルまたはその派生物の商用利用または販売は、厳密に禁止されています。
詳細については、CreativeML OpenRAIL-Mライセンス条項 を参照してください。