deoffxlmr-mono-kannadaオープンソースモデル - 無料でカンナダ語の混合コードの冒涜的な内容を検出する

ホーム

Deoffxlmr Mono Kannada

Hate-speech-CNERGによって開発

このモデルは、カンナダ語混合コード中の攻撃的内容を検出するために使用され、XLM - Roberta - Base事前学習モデルを微調整しており、EACL 2021の共有タスクで優れた成績を収めました。

テキスト分類

Transformers

その他オープンソースライセンス:Apache-2.0 #カンナダ語混合コード #攻撃的内容検出 #XLM - Roberta事前学習

ダウンロード数 22

リリース時間 : 3/2/2022

モデル概要

カンナダ語（純粋な言語と混合コード）に特化して設計された攻撃的内容検出モデルで、単言語設定で訓練され、ソーシャルメディア内容審査に適しています。

モデル特徴

単言語に特化した最適化

カンナダ語（混合コードを含む）に特化して訓練され、単言語シナリオで優れた性能を発揮します。

共有タスクの優勝モデル

EACL 2021のダラヴィダ語族攻撃的言語識別共有タスクで、カンナダ語サブタスクで2位を獲得しました。

混合コード処理

カンナダ語と他の言語が混合したコード切り替え内容を効果的に処理できます。

モデル能力

テキスト分類

攻撃的内容検出

混合言語処理

使用事例

内容審査

ソーシャルメディア内容フィルタリング

カンナダ語のソーシャルメディア内の攻撃的な発言を自動識別します。

テストセットで0.73の加重F1スコアを達成しました。

🚀 カンナダ語オフェンシブコンテンツ検出モデル

このモデルは、カンナダ語のコード混合言語におけるオフェンシブコンテンツを検出するために使用されます。名前の中の「mono」は、モデルがカンナダ語（純粋なものとコード混合のもの）のデータのみを使用して学習された単言語設定を指します。重みは、事前学習されたXLM - Roberta - Baseから初期化され、Masked Language Modellingを対象データセットで事前学習した後、Cross - Entropy Lossを使用して微調整されます。

このモデルは、「EACL 2021 Shared Task on Offensive Language Identification in Dravidian Languages」で複数学習されたモデルの中で最良のものです。遺伝的アルゴリズムに基づくアンサンブルテスト予測は、リーダーボードで2番目に高い加重F1スコアを獲得しました（ホールドアウトテストセットでの加重F1スコア：このモデル - 0.73、アンサンブル - 0.74）。

📚 ドキュメント

論文の詳細

Debjoy Saha, Naman Paharia, Debajit Chakraborty, Punyajoy Saha, Animesh Mukherjee. "[Hate - Alert@DravidianLangTech - EACL2021: Ensembling strategies for Transformer - based Offensive language Detection](https://www.aclweb.org/anthology/2021.dravidianlangtech - 1.38/)"

これらのリソースを使用する公開された作品では、必ず当社の論文を引用してください。

@inproceedings{saha-etal-2021-hate,
    title = "Hate-Alert@{D}ravidian{L}ang{T}ech-{EACL}2021: Ensembling strategies for Transformer-based Offensive language Detection",
    author = "Saha, Debjoy and Paharia, Naman and Chakraborty, Debajit and Saha, Punyajoy and Mukherjee, Animesh",
    booktitle = "Proceedings of the First Workshop on Speech and Language Technologies for Dravidian Languages",
    month = apr,
    year = "2021",
    address = "Kyiv",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.dravidianlangtech-1.38",
    pages = "270--276",
    abstract = "Social media often acts as breeding grounds for different forms of offensive content. For low resource languages like Tamil, the situation is more complex due to the poor performance of multilingual or language-specific models and lack of proper benchmark datasets. Based on this shared task {``}Offensive Language Identification in Dravidian Languages{''} at EACL 2021; we present an exhaustive exploration of different transformer models, We also provide a genetic algorithm technique for ensembling different models. Our ensembled models trained separately for each language secured the first position in Tamil, the second position in Kannada, and the first position in Malayalam sub-tasks. The models and codes are provided.",
}