🚀 俄语不适当信息分类模型
本模型主要用于检测俄语中的不适当信息,通过对特定数据集的训练,能够在毒性和淫秽过滤之后,提供额外的不适当性过滤层,帮助识别可能损害发言者声誉的内容。
🚀 快速开始
模型的预期用途
我们在数据集中尝试收集并通过模型检测的 “不适当性” 本质,并非是毒性的替代,而是毒性的一种衍生。因此,基于我们数据集训练的模型可以作为 在毒性和淫秽过滤之后的额外不适当性过滤层。你可以使用 另一个模型 来检测确切的敏感话题。以下是建议的处理流程:

你也可以训练一个分类器来同时检测毒性和不适当性。可与有毒标签样本混合的数据可以在我们的 GitHub 或 Kaggle 上找到。
不适当性的直观理解
该模型在俄语不适当消息数据集上进行训练。一般来说,不适当的表述是指没有淫秽词汇或任何毒性意图,但仍可能损害发言者声誉的表述。通过以下表格中的示例可以有更直观的认识。你可以在 这篇文章 中了解更多关于不适当性的概念,该文章在 EACL - 2021 会议的波罗的 - 斯拉夫语自然语言处理研讨会上发表。请注意,这篇文章描述的是数据集的第一个版本,而模型是在扩展版本的数据集上训练的,该扩展版本数据集已在我们的 GitHub 或 Kaggle 上开源。数据集的属性与文章中描述的相同,唯一的区别是规模。
文本 |
是否不适当 |
注释 |
不安全话题 |
Ладно бы видного деятеля завалили а тут какого то ноунейм нигру преступника |
是 |
为谋杀行为开脱 |
线下犯罪 |
Это нарушение УКРФ! |
否 |
谴责违法行为 |
线下犯罪 |
Религия - это насилие высшего уровня. Верующего принуждают к вере еще в младенчестве. |
是 |
冒犯信徒感情 |
宗教 |
Христиане, как вы относитесь к иноверцам, в частности к Гамалиилу и к уверовавшим в Иисуса фарисеям? |
否 |
向信徒提出的普通问题,无意冒犯他们的感情 |
宗教 |
Хорошо что проституция запрещена |
否 |
谴责卖淫行为 |
卖淫 |
Возьму бабки и сниму шлюх на выходных |
是 |
宣扬卖淫行为 |
卖淫 |
模型指标
该模型仅在置信度为 100% 的样本上进行训练、验证和测试,在测试集上取得了以下指标:
|
精确率 |
召回率 |
F1 分数 |
样本数 |
0 |
0.92 |
0.93 |
0.93 |
7839 |
1 |
0.80 |
0.76 |
0.78 |
2726 |
准确率 |
|
|
0.89 |
10565 |
宏平均 |
0.86 |
0.85 |
0.85 |
10565 |
加权平均 |
0.89 |
0.89 |
0.89 |
10565 |
📄 许可证
本项目采用 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议。

📚 引用信息
如果您觉得这个仓库有帮助,请引用我们的出版物:
@inproceedings{babakov-etal-2021-detecting,
title = "Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company{'}s Reputation",
author = "Babakov, Nikolay and
Logacheva, Varvara and
Kozlova, Olga and
Semenov, Nikita and
Panchenko, Alexander",
booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
month = apr,
year = "2021",
address = "Kiyv, Ukraine",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bsnlp-1.4",
pages = "26--36",
abstract = "Not all topics are equally {``}flammable{''} in terms of toxicity: a calm discussion of turtles or fishing less often fuels inappropriate toxic dialogues than a discussion of politics or sexual minorities. We define a set of sensitive topics that can yield inappropriate and toxic messages and describe the methodology of collecting and labelling a dataset for appropriateness. While toxicity in user-generated data is well-studied, we aim at defining a more fine-grained notion of inappropriateness. The core of inappropriateness is that it can harm the reputation of a speaker. This is different from toxicity in two respects: (i) inappropriateness is topic-related, and (ii) inappropriate message is not toxic but still unacceptable. We collect and release two datasets for Russian: a topic-labelled dataset and an appropriateness-labelled dataset. We also release pre-trained classification models trained on this data.",
}
📞 联系方式
如果您有任何问题,请联系 Nikolay