🚀 コロンビアスペイン語サイバーブライング分類器
このモデルは、コロンビアスペイン語におけるサイバーブライングを検出するために、ソーシャルネットワークTwitterから手動で収集した投稿を元に作成したデータセットで、PlanTL - GOB - ES/roberta - base - bne をファインチューニングしたバージョンです。
📚 ドキュメント
学習と評価データ
使用したデータセットは3570件のツイートで構成されています。これらは、サイバーブライングか否かを手動でラベル付けされています。このデータセットの特徴は、特定の単語について、その単語を含むサイバーブライングとラベル付けされた注釈付きツイートと、同じ単語を含むサイバーブライングではないとラベル付けされたツイートが存在することです。これは、同じ単語が使用される文脈が異なるため、ツイートの分類が異なることが可能であるからです。
例えば、サイバーブライングではないカテゴリのツイートには、主に下品な単語が含まれていますが、その特定の文脈ではサイバーブライングに該当しません。例として「Marica, se me olvidó ver el partido」が挙げられます。また、サイバーブライングではないカテゴリには、ある程度、コロンビア地域のトレンドから取得したツイートも含まれています。Twitterのトレンドは、特定の地域で特定の時間に最も人気のあるトピックや会話を反映しており、本質的にはその地理的な場所で人々がオンラインで議論し共有していることを捉えています。
トレンドベースのツイートは、特定の攻撃的な単語やフレーズ(例:「ojala te violen」)を含むサイバーブライングではないツイートを取得できない場合に使用されました。逆に、サイバーブライングとラベル付けされたツイートは、必ずしも強いまたは下品な単語やフレーズを含んでいるとは限りません。例えば「te voy a buscar」のような場合です。
サイバーブライングのツイートと非サイバーブライングのツイートの分布は同じでした。データセットの作成に使用されたキーワードとフレーズは、Cynthia Van Hee、Ben Verhoeven、Els Lefever、Guy De Pauw、Walter Daelemans、およびVéronique Hosteによる論文 Guidelines for the Fine - Grained Analysis of Cyberbullying で提供されたカテゴリに基づいて選択されました。4つのカテゴリが含まれています:侮辱、脅迫、呪い、中傷。侮辱カテゴリは、他の人を口頭で傷つけることを意図した攻撃的な言葉の使用を含み、脅迫は被害者の健全性を害することを目的としています。呪いには、人に危害や不幸を祈る言葉が含まれ、中傷は被害者の評判を傷つけようとするものです。これらのカテゴリは、サイバーブライングが現れる形態の幅広い表現を捉えるために選択されました。ツイートは、このプロジェクトに関連する作業療法士によってラベル付けされました。
学習手順
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました:
- learning_rate: 2e - 05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 42
- weight_decay = 0.01
- warmup_steps = 500
- num_epochs: 2
学習結果
エポック |
ROC - AUC |
検証損失 |
学習損失 |
1.0 |
0.8756 |
0.4375 |
--- |
2.0 |
0.9022 |
0.5060 |
0.4945 |
💻 使用例
基本的な使用法
!pip install -q transformers
from transformers import pipeline
model_path = "FelipeGuerra/colombian-spanish-cyberbullying-classifier"
bullying_analysis = pipeline("text-classification", model=model_path, tokenizer=model_path)
bullying_analysis(
"Como dice mi mamá: va caer palo de agua"
)
[{'label': 'Not_bullying', 'score': 0.977687656879425}]
bullying_analysis(
"Esta perrita me las va pagar"
)
[{'label': 'Bullying', 'score': 0.9404164552688599}]
フレームワークバージョン
- Transformers 4.34.0
- Pytorch 2.0.1+cu118
- Pandas 1.5.3
- scikit - learn 1.2.2
作成者: Felipe Guerra Sáenz | LinkedIn
📄 ライセンス
MITライセンス