xlmr-large-toxicity-classifier オープンソース多言語毒性分類器 - 9 種類の言語のテキスト毒性検出をサポート

ホーム

Xlmr Large Toxicity Classifier

textdetoxによって開発

xlm-roberta-largeアーキテクチャに基づく多言語毒性分類器で、9言語のテキスト毒性検出をサポート

テキスト分類

Transformers

複数言語対応#多言語毒性検出 #高精度分類 #ソーシャルメディアコンテンツ審査

ダウンロード数 5,509

リリース時間 : 2/2/2024

モデル概要

このモデルはテキスト中の毒性コンテンツを検出するために使用され、英語、ロシア語、ウクライナ語、スペイン語、ドイツ語、アムハラ語、アラビア語、中国語、ヒンディー語など多言語をサポートします。

モデル特徴

多言語サポート

英語、ロシア語、中国語などの主要言語を含む9言語の毒性コンテンツ検出をサポート

高精度

複数の言語で優れた性能を発揮し、英語F1値は0.965、ロシア語は0.979を達成

バランスの取れたデータセット

注意深く構築された多言語毒性データセットでトレーニングされ、テストセットでバランスの取れた性能を示す

モデル能力

テキスト毒性検出

多言語テキスト分析

コンテンツセキュリティフィルタリング

使用事例

コンテンツ審査

ソーシャルメディアコンテンツフィルタリング

ソーシャルメディア上の有害コメントを自動検出・フィルタリング

多言語の有害コンテンツを効果的に識別可能

オンラインコミュニティ管理

フォーラムやコミュニティ管理者が不適切な発言を識別するのを支援

多言語サポートを提供し、幅広いユーザー層をカバー

学術研究

言語毒性研究

異なる言語間の毒性特性の比較研究に使用

標準化された評価指標を提供

🚀 9言語用多言語毒性分類器 (2024)

このモデルは、[xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) をベースに、独自のコンパイルデータセット textdetox/multilingual_toxicity_dataset を用いて、二値毒性分類タスクに対してファインチューニングされたモデルです。

まず、モデルの適切性を確認するために、バランスの取れた20%のテストセットを分離しました。その後、全データでモデルをファインチューニングしました。テストセットでの結果は以下の通りです。

言語	適合率	再現率	F1値
全言語	0.8713	0.8710	0.8710
英語	0.9650	0.9650	0.9650
ロシア語	0.9791	0.9790	0.9790
ウクライナ語	0.9267	0.9250	0.9251
ドイツ語	0.8791	0.8760	0.8758
スペイン語	0.8700	0.8700	0.8700
アラビア語	0.7787	0.7780	0.7780
アムハラ語	0.7781	0.7780	0.7780
ヒンディー語	0.9360	0.9360	0.9360
中国語	0.7318	0.7320	0.7315

📚 詳細ドキュメント

モデル情報

属性	詳情
モデルタイプ	多言語毒性分類器
訓練データ	textdetox/multilingual_toxicity_dataset
評価指標	F1
ベースモデル	FacebookAI/xlm - roberta - large
タグ	毒性
新バージョン	textdetox/xlmr - large - toxicity - classifier - v2
ライセンス	openrail++

📄 ライセンス

このモデルは openrail++ ライセンスの下で提供されています。

📚 引用

当研究を引用する場合は、以下の論文を引用してください。

@inproceedings{dementieva2024overview,
  title={Overview of the Multilingual Text Detoxification Task at PAN 2024},
  author={Dementieva, Daryna and Moskovskiy, Daniil and Babakov, Nikolay and Ayele, Abinew Ali and Rizwan, Naquee and Schneider, Frolian and Wang, Xintog and Yimam, Seid Muhie and Ustalov, Dmitry and Stakovskii, Elisei and Smirnova, Alisa and Elnagar, Ashraf and Mukherjee, Animesh and Panchenko, Alexander},
  booktitle={Working Notes of CLEF 2024 - Conference and Labs of the Evaluation Forum},
  editor={Guglielmo Faggioli and Nicola Ferro and Petra Galu{\v{s}}{\v{c}}{\'a}kov{\'a} and Alba Garc{\'i}a Seco de Herrera},
  year={2024},
  organization={CEUR - WS.org}
}

@inproceedings{DBLP:conf/ecir/BevendorffCCDEFFKMMPPRRSSSTUWZ24,
  author       = {Janek Bevendorff and
                  Xavier Bonet Casals and
                  Berta Chulvi and
                  Daryna Dementieva and
                  Ashaf Elnagar and
                  Dayne Freitag and
                  Maik Fr{\"{o}}be and
                  Damir Korencic and
                  Maximilian Mayerl and
                  Animesh Mukherjee and
                  Alexander Panchenko and
                  Martin Potthast and
                  Francisco Rangel and
                  Paolo Rosso and
                  Alisa Smirnova and
                  Efstathios Stamatatos and
                  Benno Stein and
                  Mariona Taul{\'{e}} and
                  Dmitry Ustalov and
                  Matti Wiegmann and
                  Eva Zangerle},
  editor       = {Nazli Goharian and
                  Nicola Tonellotto and
                  Yulan He and
                  Aldo Lipani and
                  Graham McDonald and
                  Craig Macdonald and
                  Iadh Ounis},
  title        = {Overview of {PAN} 2024: Multi - author Writing Style Analysis, Multilingual
                  Text Detoxification, Oppositional Thinking Analysis, and Generative
                  {AI} Authorship Verification - Extended Abstract},
  booktitle    = {Advances in Information Retrieval - 46th European Conference on Information
                  Retrieval, {ECIR} 2024, Glasgow, UK, March 24 - 28, 2024, Proceedings,
                  Part {VI}},
  series       = {Lecture Notes in Computer Science},
  volume       = {14613},
  pages        = {3--10},
  publisher    = {Springer},
  year         = {2024},
  url          = {https://doi.org/10.1007/978 - 3 - 031 - 56072 - 9\_1},
  doi          = {10.1007/978 - 3 - 031 - 56072 - 9\_1},
  timestamp    = {Fri, 29 Mar 2024 23:01:36 +0100},
  biburl       = {https://dblp.org/rec/conf/ecir/BevendorffCCDEFFKMMPPRRSSSTUWZ24.bib},
  bibsource    = {dblp computer science bibliography, https://dblp.org}
}