🚀 敏感トピック分類モデル
このモデルは、ロシア語の敏感トピックのデータセットを用いて学習されています。敏感トピックの概念については、この記事で説明されており、この記事はEACL - 2021会議のBalto - Slavic NLPワークショップで発表されました。なお、この記事ではデータセットの第1版が記載されていますが、モデルは拡張版のデータセットを用いて学習されており、この拡張版は我々のGitHubまたはkaggleでオープンソース化されています。データセットの特性は記事で説明されているものと同じで、唯一の違いはサイズです。
🚀 クイックスタート
このモデルは、記事で説明されている18の敏感トピックの組み合わせを予測します。モデルの使用方法のステップバイステップの説明は、こちらで見ることができます。
✨ 主な機能
- ロシア語の敏感トピックのデータセットを用いた学習
- 18の敏感トピックの組み合わせを予測
📚 ドキュメント
モデルの概要
このモデルは、ロシア語の敏感トピックのデータセットを用いて学習されています。敏感トピックの概念については、この記事で説明されています。
使い方
モデルは、記事で説明されている18の敏感トピックの組み合わせを予測します。使用方法の詳細な手順は、こちらで確認できます。
メトリクス
データセットには、一部が手動でラベル付けされたサンプルと、一部が半自動でラベル付けされたサンプルが含まれています。詳細は我々の記事を参照してください。分類器の性能は、手動でラベル付けされたデータの一部のみでテストされているため、一部のトピックはテストセットに十分に表されていません。
|
精度 (precision) |
再現率 (recall) |
F1スコア (f1-score) |
サポート (support) |
offline_crime |
0.65 |
0.55 |
0.6 |
132 |
online_crime |
0.5 |
0.46 |
0.48 |
37 |
drugs |
0.87 |
0.9 |
0.88 |
87 |
gambling |
0.5 |
0.67 |
0.57 |
6 |
pornography |
0.73 |
0.59 |
0.65 |
204 |
prostitution |
0.75 |
0.69 |
0.72 |
91 |
slavery |
0.72 |
0.72 |
0.73 |
40 |
suicide |
0.33 |
0.29 |
0.31 |
7 |
terrorism |
0.68 |
0.57 |
0.62 |
47 |
weapons |
0.89 |
0.83 |
0.86 |
138 |
body_shaming |
0.9 |
0.67 |
0.77 |
109 |
health_shaming |
0.84 |
0.55 |
0.66 |
108 |
politics |
0.68 |
0.54 |
0.6 |
241 |
racism |
0.81 |
0.59 |
0.68 |
204 |
religion |
0.94 |
0.72 |
0.81 |
102 |
sexual_minorities |
0.69 |
0.46 |
0.55 |
102 |
sexism |
0.66 |
0.64 |
0.65 |
132 |
social_injustice |
0.56 |
0.37 |
0.45 |
181 |
none |
0.62 |
0.67 |
0.64 |
250 |
micro avg |
0.72 |
0.61 |
0.66 |
2218 |
macro avg |
0.7 |
0.6 |
0.64 |
2218 |
weighted avg |
0.73 |
0.61 |
0.66 |
2218 |
samples avg |
0.75 |
0.66 |
0.68 |
2218 |
📄 ライセンス
このモデルは、[Creative Commons Attribution - NonCommercial - ShareAlike 4.0 International License][cc - by - nc - sa]の下で提供されています。
[![CC BY - NC - SA 4.0][cc - by - nc - sa - image]][cc - by - nc - sa]
[cc - by - nc - sa]: http://creativecommons.org/licenses/by - nc - sa/4.0/
[cc - by - nc - sa - image]: https://i.creativecommons.org/l/by - nc - sa/4.0/88x31.png
引用
このリポジトリが役立った場合、以下のように引用してください。
@inproceedings{babakov-etal-2021-detecting,
title = "Detecting Inappropriate Messages on Sensitive Topics that Could Harm a Company{'}s Reputation",
author = "Babakov, Nikolay and
Logacheva, Varvara and
Kozlova, Olga and
Semenov, Nikita and
Panchenko, Alexander",
booktitle = "Proceedings of the 8th Workshop on Balto-Slavic Natural Language Processing",
month = apr,
year = "2021",
address = "Kiyv, Ukraine",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.bsnlp-1.4",
pages = "26--36",
abstract = "Not all topics are equally {``}flammable{''} in terms of toxicity: a calm discussion of turtles or fishing less often fuels inappropriate toxic dialogues than a discussion of politics or sexual minorities. We define a set of sensitive topics that can yield inappropriate and toxic messages and describe the methodology of collecting and labelling a dataset for appropriateness. While toxicity in user-generated data is well-studied, we aim at defining a more fine-grained notion of inappropriateness. The core of inappropriateness is that it can harm the reputation of a speaker. This is different from toxicity in two respects: (i) inappropriateness is topic-related, and (ii) inappropriate message is not toxic but still unacceptable. We collect and release two datasets for Russian: a topic-labelled dataset and an appropriateness-labelled dataset. We also release pre-trained classification models trained on this data.",
}