🚀 斯洛文尼亚语仇恨言论文本分类模型
本项目基于EMBEDDIA/sloberta
构建了一个文本分类模型,该模型在包含LGBT和移民仇恨言论的FRENK数据集上进行了微调。仅使用了数据集中的斯洛文尼亚语子集进行微调,并且该数据集已重新标记用于二分类(冒犯性或可接受)。
🚀 快速开始
本模型基于EMBEDDIA/sloberta
,并在特定数据集上进行了微调。你可以参考以下使用示例快速上手。
✨ 主要特性
- 基于
EMBEDDIA/sloberta
模型,在特定仇恨言论数据集上微调。
- 仅使用斯洛文尼亚语子集数据进行微调,适用于斯洛文尼亚语的仇恨言论分类。
- 进行了二分类任务,可判断文本是否具有冒犯性。
📦 安装指南
文档未提及安装步骤,可参考simpletransformers
库的官方安装说明。
💻 使用示例
基础用法
from simpletransformers.classification import ClassificationModel
model_args = {
"num_train_epochs": 6,
"learning_rate": 3e-6,
"train_batch_size": 69}
model = ClassificationModel(
"camembert", "5roop/sloberta-frenk-hate", use_cuda=True,
args=model_args
)
predictions, logit_output = model.predict(["Silva, ti si grda in neprijazna", "Naša hiša ima dimnik"])
predictions
📚 详细文档
微调超参数
使用simpletransformers
进行微调。事先进行了简要的超参数优化,推测的最优超参数如下:
model_args = {
"num_train_epochs": 14,
"learning_rate": 1e-5,
"train_batch_size": 21,
}
性能表现
为了进行比较,使用相同的管道对另外两个Transformer模型和fasttext
进行了运行。记录了6次微调会话中每个模型的准确率和宏F1分数,并进行了事后分析。
模型 |
平均准确率 |
平均宏F1分数 |
sloberta-frenk-hate |
0.7785 |
0.7764 |
EMBEDDIA/crosloengual-bert |
0.7616 |
0.7585 |
xlm-roberta-base |
0.686 |
0.6827 |
fasttext |
0.709 |
0.701 |
根据记录的准确率和宏F1分数,还计算了p值:
与crosloengual-bert
的比较:
测试方法 |
准确率p值 |
宏F1分数p值 |
Wilcoxon |
0.00781 |
0.00781 |
Mann Whithney U测试 |
0.00163 |
0.00108 |
学生t检验 |
0.000101 |
3.95e-05 |
与xlm-roberta-base
的比较:
测试方法 |
准确率p值 |
宏F1分数p值 |
Wilcoxon |
0.00781 |
0.00781 |
Mann Whithney U测试 |
0.00108 |
0.00108 |
学生t检验 |
9.46e-11 |
6.94e-11 |
🔧 技术细节
本模型基于EMBEDDIA/sloberta
,使用simpletransformers
库进行微调。在微调前进行了超参数优化,以提高模型性能。通过在特定的仇恨言论数据集上进行训练,使得模型能够对斯洛文尼亚语的仇恨言论进行分类。
📄 许可证
本项目采用CC BY-SA 4.0许可证。
📖 引用
如果你使用了该模型,请引用以下论文和数据集:
模型引用论文
@article{DBLP:journals/corr/abs-1907-11692,
author = {Yinhan Liu and
Myle Ott and
Naman Goyal and
Jingfei Du and
Mandar Joshi and
Danqi Chen and
Omer Levy and
Mike Lewis and
Luke Zettlemoyer and
Veselin Stoyanov},
title = {RoBERTa: {A} Robustly Optimized {BERT} Pretraining Approach},
journal = {CoRR},
volume = {abs/1907.11692},
year = {2019},
url = {http://arxiv.org/abs/1907.11692},
archivePrefix = {arXiv},
eprint = {1907.11692},
timestamp = {Thu, 01 Aug 2019 08:59:33 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1907-11692.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
微调数据集引用
@misc{ljubešić2019frenk,
title={The FRENK Datasets of Socially Unacceptable Discourse in Slovene and English},
author={Nikola Ljubešić and Darja Fišer and Tomaž Erjavec},
year={2019},
eprint={1906.02045},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/1906.02045}
}