🚀 ティグリニャ語の虐待的言語検出のために微調整されたTiRoBERTa
このモデルは、TiALDデータセットでTiRoBERTaを微調整したバージョンです。
ティグリニャ語の虐待的言語検出 (TiALD) データセット は、ティグリニャ語における虐待的言語検出のための大規模なマルチタスクベンチマークデータセットです。これは、13,717件のYouTubeコメント から構成され、虐待性、感情、およびトピック のタスクに関してアノテーションされています。データセットには、ゲエズ文字 と一般的な非標準のラテン語 音訳 の両方で書かれたコメントが含まれており、実際の使用状況を反映しています。
⚠️ このデータセットには、露骨で下品で、潜在的に憎悪を含む言語が含まれています。研究目的のみで使用する必要があります。 ⚠️
この研究は、論文 "A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings" とともに行われました。
🚀 クイックスタート
このモデルは、ティグリニャ語の虐待的言語検出に特化しており、TiALDデータセットを用いて微調整されています。以下のセクションでは、モデルの使い方や性能指標、トレーニングのハイパーパラメータなどについて説明します。
✨ 主な機能
- 多言語対応:ゲエズ文字とラテン語音訳の両方のティグリニャ語コメントを処理できます。
- マルチタスク対応:虐待性、感情、トピックのタスクを同時に扱えます。
- 高精度:評価セットで高い精度を達成しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
tiald_pipe = pipeline("text-classification", model="fgaim/tiroberta-abusiveness-detection")
tiald_pipe("<text-to-classify>")
📚 ドキュメント
性能指標
このモデルは、評価セットで以下の結果を達成しています。
"abusiveness_metrics": {
"accuracy": 0.8666666666666667,
"macro_f1": 0.8666502037288554,
"macro_precision": 0.8668478260869565,
"macro_recall": 0.8666666666666667,
"weighted_f1": 0.8666502037288554,
"weighted_precision": 0.8668478260869565,
"weighted_recall": 0.8666666666666667
}
トレーニングのハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 2e-05
- train_batch_size: 16
- optimizer: Adam (betas=0.9, 0.999, epsilon=1e-08)
- lr_scheduler_type: linear
- num_epochs: 4.0
- seed: 42
想定される用途
TiALDデータセットとこのモデルは、以下の研究をサポートすることを目的としています。
- 低リソース言語における虐待的言語検出の研究
- コンテキストを考慮した虐待、感情、トピックモデリング
- 二文字表記のスクリプトを用いたマルチタスクおよび転移学習
- 多言語および微調整された言語モデルの評価
研究者や開発者は、人間の監視なしでこのデータセットを直接のモデレーションや執行タスクに使用することを避けるべきです。
倫理的な考慮事項
- 敏感な内容:有毒で不快な言語が含まれています。研究目的のみで使用してください。
- 文化的な配慮:虐待はコンテキストに依存します。アノテーションは、文化的なニュアンスを考慮して母国語話者によって行われました。
- バイアスの軽減:データのサンプリングとアノテーションは、ステレオタイプの強化を最小限に抑えるように慎重に設計されました。
- プライバシー:データセットのすべてのソースコンテンツは、YouTubeで公開されています。
- 表現の尊重:人間のレビューなしでこのデータセットを自動的な検閲に使用しないでください。
この研究はIRBの承認を得ており(参照番号: KH2022-133)、アノテーターの同意を得た倫理的なデータ収集とアノテーションの実践に従っています。
引用
このモデルまたは TiALD
データセットをあなたの研究で使用する場合は、以下のように引用してください。
@misc{gaim-etal-2025-tiald-benchmark,
title = {A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings},
author = {Fitsum Gaim and Hoyun Song and Huije Lee and Changgeon Ko and Eui Jun Hwang and Jong C. Park},
year = {2025},
eprint = {2505.12116},
archiveprefix = {arXiv},
primaryclass = {cs.CL},
url = {https://arxiv.org/abs/2505.12116}
}
📄 ライセンス
このデータセットは、Creative Commons Attribution 4.0 International License (CC BY 4.0) の下で公開されています。