deoffxlmr-mono-tamilオープンソースモデル - タミル語コード混合テキストの不快な内容を高精度に検出

Deoffxlmr Mono Tamil

Hate-speech-CNERGによって開発

このモデルは、タミル語のコード混合テキスト中の冒涜的コンテンツを検出するために使用され、XLM - Roberta - Baseモデルをベースに訓練され、EACL 2021のドラヴィダ語族の冒涜的言語識別共有タスクで優れた成績を収めました。

テキスト分類

Transformers

その他オープンソースライセンス:Apache-2.0 #タミル語の冒涜検出 #コード混合テキスト処理 #XLM - Robertaの微調整

ダウンロード数 100

リリース時間 : 3/2/2022

モデル概要

タミル語（純粋なテキストおよびコード混合形式を含む）中の冒涜的コンテンツを識別するために専用に設計された単言語モデルで、Transformerアーキテクチャを採用し、特定のデータセットで高い検出精度を達成しています。

モデル特徴

単言語に特化した最適化

タミル語（コード混合形式を含む）に特化して最適化されており、多言語モデルよりも特定の言語タスクで優れた性能を発揮します。

集積戦略の優位性

遺伝的アルゴリズム集積技術を採用し、共有タスクでタミル語サブタスクの一位を獲得しました。

低リソース言語の解決策

タミル語などの低リソース言語の冒涜的コンテンツ検出の難題に対して有効な解決策を提供します。

モデル能力

タミル語テキスト分類

コード混合テキスト処理

冒涜的コンテンツ識別

使用事例

コンテンツ審査

ソーシャルメディアコンテンツのフィルタリング

タミル語のソーシャルメディア中の冒涜的な発言を自動検出します。

テストセットで0.76の加重F1スコアを達成しました。

言語研究

ドラヴィダ語族の言語分析

タミル語などの低リソース言語の冒涜的言語の特徴を研究するために使用されます。

🚀 タミル語コード混合言語における攻撃的コンテンツ検出モデル

このモデルは、タミル語のコード混合言語における攻撃的コンテンツを検出するために使用されます。名前の中の「mono」は、モデルがタミル語（純粋なタミル語とコード混合言語）のデータのみを使用して学習された単言語設定を指します。重みは、事前学習されたXLM - Roberta - Baseから初期化され、Masked Language Modellingを使用してターゲットデータセットで事前学習された後、Cross - Entropy Lossを使用して微調整されます。

このモデルは、「EACL 2021 Shared Task on Offensive Language Identification in Dravidian Languages」で学習された複数のモデルの中で最良のものです。遺伝的アルゴリズムに基づくアンサンブルテスト予測は、リーダーボードで最高の重み付きF1スコアを獲得しました（ホールドアウトテストセットでの重み付きF1スコア：このモデル - 0.76、アンサンブル - 0.78）。

📚 ドキュメント

論文の詳細

Debjoy Saha, Naman Paharia, Debajit Chakraborty, Punyajoy Saha, Animesh Mukherjee. "Hate-Alert@DravidianLangTech-EACL2021: Ensembling strategies for Transformer-based Offensive language Detection".

これらのリソースを使用した公開された作品では、必ず当社の論文を引用してください。

@inproceedings{saha-etal-2021-hate,
    title = "Hate-Alert@{D}ravidian{L}ang{T}ech-{EACL}2021: Ensembling strategies for Transformer-based Offensive language Detection",
    author = "Saha, Debjoy and Paharia, Naman and Chakraborty, Debajit and Saha, Punyajoy and Mukherjee, Animesh",
    booktitle = "Proceedings of the First Workshop on Speech and Language Technologies for Dravidian Languages",
    month = apr,
    year = "2021",
    address = "Kyiv",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.dravidianlangtech-1.38",
    pages = "270--276",
    abstract = "Social media often acts as breeding grounds for different forms of offensive content. For low resource languages like Tamil, the situation is more complex due to the poor performance of multilingual or language-specific models and lack of proper benchmark datasets. Based on this shared task {``}Offensive Language Identification in Dravidian Languages{''} at EACL 2021; we present an exhaustive exploration of different transformer models, We also provide a genetic algorithm technique for ensembling different models. Our ensembled models trained separately for each language secured the first position in Tamil, the second position in Kannada, and the first position in Malayalam sub-tasks. The models and codes are provided.",
}