🚀 TiRoBERTa針對提格雷語辱罵性語言檢測的微調模型
本模型是 TiRoBERTa 在 TiALD 數據集上的微調版本。
提格雷語辱罵性語言檢測(TiALD)數據集 是一個大規模、多任務的基準數據集,用於檢測提格雷語中的辱罵性語言。它包含 13717 條YouTube評論,並針對 辱罵性、情感 和 主題 任務進行了標註。該數據集包括用 吉茲字母 和流行的非標準拉丁 轉寫 書寫的評論,以反映現實世界的使用情況。
⚠️ 重要提示
該數據集包含明確、淫穢和潛在的仇恨性語言,僅應用於研究目的。
本研究成果與論文 "A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings" 相關。
🚀 快速開始
本模型可用於提格雷語辱罵性語言的檢測,以下是使用示例。
💻 使用示例
基礎用法
from transformers import pipeline
tiald_pipe = pipeline("text-classification", model="fgaim/tiroberta-abusiveness-detection")
tiald_pipe("<text-to-classify>")
📚 詳細文檔
性能指標
該模型在評估集上取得了以下結果:
"abusiveness_metrics": {
"accuracy": 0.8666666666666667,
"macro_f1": 0.8666502037288554,
"macro_precision": 0.8668478260869565,
"macro_recall": 0.8666666666666667,
"weighted_f1": 0.8666502037288554,
"weighted_precision": 0.8668478260869565,
"weighted_recall": 0.8666666666666667
}
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):2e-05
- 訓練批次大小(train_batch_size):16
- 優化器(optimizer):Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型(lr_scheduler_type):線性
- 訓練輪數(num_epochs):4.0
- 隨機種子(seed):42
預期用途
TiALD 數據集和模型旨在支持以下方面的研究:
- 低資源語言中辱罵性語言檢測的研究
- 上下文感知的辱罵、情感和主題建模
- 使用雙字母腳本的多任務和遷移學習
- 多語言和微調語言模型的評估
研究人員和開發者應避免在沒有人工監督的情況下,將該數據集用於直接的審核或執行任務。
倫理考量
- 敏感內容:包含有毒和冒犯性語言,僅用於研究目的。
- 文化敏感性:辱罵行為取決於上下文;標註由母語人士進行,以考慮文化細微差別。
- 偏差緩解:數據採樣和標註經過精心設計,以儘量減少對刻板印象的強化。
- 隱私:數據集中的所有源內容都可在YouTube上公開獲取。
- 尊重表達:在沒有人工審核的情況下,不應將該數據集用於自動審查。
本研究獲得了機構審查委員會(IRB)的批准(編號:KH2022 - 133),並遵循了符合倫理的數據收集和標註實踐,包括獲得標註人員的知情同意。
引用
如果您在工作中使用了該模型或 TiALD
數據集,請引用以下文獻:
@misc{gaim-etal-2025-tiald-benchmark,
title = {A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings},
author = {Fitsum Gaim and Hoyun Song and Huije Lee and Changgeon Ko and Eui Jun Hwang and Jong C. Park},
year = {2025},
eprint = {2505.12116},
archiveprefix = {arXiv},
primaryclass = {cs.CL},
url = {https://arxiv.org/abs/2505.12116}
}
📄 許可證
該數據集根據 知識共享署名 4.0 國際許可協議(CC BY 4.0) 發佈。