D

Deoffxlmr Mono Tamil

Hate-speech-CNERGによって開発
このモデルは、タミル語のコード混合テキスト中の冒涜的コンテンツを検出するために使用され、XLM - Roberta - Baseモデルをベースに訓練され、EACL 2021のドラヴィダ語族の冒涜的言語識別共有タスクで優れた成績を収めました。
ダウンロード数 100
リリース時間 : 3/2/2022

モデル概要

タミル語(純粋なテキストおよびコード混合形式を含む)中の冒涜的コンテンツを識別するために専用に設計された単言語モデルで、Transformerアーキテクチャを採用し、特定のデータセットで高い検出精度を達成しています。

モデル特徴

単言語に特化した最適化
タミル語(コード混合形式を含む)に特化して最適化されており、多言語モデルよりも特定の言語タスクで優れた性能を発揮します。
集積戦略の優位性
遺伝的アルゴリズム集積技術を採用し、共有タスクでタミル語サブタスクの一位を獲得しました。
低リソース言語の解決策
タミル語などの低リソース言語の冒涜的コンテンツ検出の難題に対して有効な解決策を提供します。

モデル能力

タミル語テキスト分類
コード混合テキスト処理
冒涜的コンテンツ識別

使用事例

コンテンツ審査
ソーシャルメディアコンテンツのフィルタリング
タミル語のソーシャルメディア中の冒涜的な発言を自動検出します。
テストセットで0.76の加重F1スコアを達成しました。
言語研究
ドラヴィダ語族の言語分析
タミル語などの低リソース言語の冒涜的言語の特徴を研究するために使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase