🚀 TiRoBERTa针对提格雷语辱骂性语言检测的微调模型
本模型是 TiRoBERTa 在 TiALD 数据集上的微调版本。
提格雷语辱骂性语言检测(TiALD)数据集 是一个大规模、多任务的基准数据集,用于检测提格雷语中的辱骂性语言。它包含 13717 条YouTube评论,并针对 辱骂性、情感 和 主题 任务进行了标注。该数据集包括用 吉兹字母 和流行的非标准拉丁 转写 书写的评论,以反映现实世界的使用情况。
⚠️ 重要提示
该数据集包含明确、淫秽和潜在的仇恨性语言,仅应用于研究目的。
本研究成果与论文 "A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings" 相关。
🚀 快速开始
本模型可用于提格雷语辱骂性语言的检测,以下是使用示例。
💻 使用示例
基础用法
from transformers import pipeline
tiald_pipe = pipeline("text-classification", model="fgaim/tiroberta-abusiveness-detection")
tiald_pipe("<text-to-classify>")
📚 详细文档
性能指标
该模型在评估集上取得了以下结果:
"abusiveness_metrics": {
"accuracy": 0.8666666666666667,
"macro_f1": 0.8666502037288554,
"macro_precision": 0.8668478260869565,
"macro_recall": 0.8666666666666667,
"weighted_f1": 0.8666502037288554,
"weighted_precision": 0.8668478260869565,
"weighted_recall": 0.8666666666666667
}
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):2e-05
- 训练批次大小(train_batch_size):16
- 优化器(optimizer):Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型(lr_scheduler_type):线性
- 训练轮数(num_epochs):4.0
- 随机种子(seed):42
预期用途
TiALD 数据集和模型旨在支持以下方面的研究:
- 低资源语言中辱骂性语言检测的研究
- 上下文感知的辱骂、情感和主题建模
- 使用双字母脚本的多任务和迁移学习
- 多语言和微调语言模型的评估
研究人员和开发者应避免在没有人工监督的情况下,将该数据集用于直接的审核或执行任务。
伦理考量
- 敏感内容:包含有毒和冒犯性语言,仅用于研究目的。
- 文化敏感性:辱骂行为取决于上下文;标注由母语人士进行,以考虑文化细微差别。
- 偏差缓解:数据采样和标注经过精心设计,以尽量减少对刻板印象的强化。
- 隐私:数据集中的所有源内容都可在YouTube上公开获取。
- 尊重表达:在没有人工审核的情况下,不应将该数据集用于自动审查。
本研究获得了机构审查委员会(IRB)的批准(编号:KH2022 - 133),并遵循了符合伦理的数据收集和标注实践,包括获得标注人员的知情同意。
引用
如果您在工作中使用了该模型或 TiALD
数据集,请引用以下文献:
@misc{gaim-etal-2025-tiald-benchmark,
title = {A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings},
author = {Fitsum Gaim and Hoyun Song and Huije Lee and Changgeon Ko and Eui Jun Hwang and Jong C. Park},
year = {2025},
eprint = {2505.12116},
archiveprefix = {arXiv},
primaryclass = {cs.CL},
url = {https://arxiv.org/abs/2505.12116}
}
📄 许可证
该数据集根据 知识共享署名 4.0 国际许可协议(CC BY 4.0) 发布。