Deoffxlmr Mono Tamil
D
Deoffxlmr Mono Tamil
Hate-speech-CNERGによって開発
このモデルは、タミル語のコード混合テキスト中の冒涜的コンテンツを検出するために使用され、XLM - Roberta - Baseモデルをベースに訓練され、EACL 2021のドラヴィダ語族の冒涜的言語識別共有タスクで優れた成績を収めました。
ダウンロード数 100
リリース時間 : 3/2/2022
モデル概要
タミル語(純粋なテキストおよびコード混合形式を含む)中の冒涜的コンテンツを識別するために専用に設計された単言語モデルで、Transformerアーキテクチャを採用し、特定のデータセットで高い検出精度を達成しています。
モデル特徴
単言語に特化した最適化
タミル語(コード混合形式を含む)に特化して最適化されており、多言語モデルよりも特定の言語タスクで優れた性能を発揮します。
集積戦略の優位性
遺伝的アルゴリズム集積技術を採用し、共有タスクでタミル語サブタスクの一位を獲得しました。
低リソース言語の解決策
タミル語などの低リソース言語の冒涜的コンテンツ検出の難題に対して有効な解決策を提供します。
モデル能力
タミル語テキスト分類
コード混合テキスト処理
冒涜的コンテンツ識別
使用事例
コンテンツ審査
ソーシャルメディアコンテンツのフィルタリング
タミル語のソーシャルメディア中の冒涜的な発言を自動検出します。
テストセットで0.76の加重F1スコアを達成しました。
言語研究
ドラヴィダ語族の言語分析
タミル語などの低リソース言語の冒涜的言語の特徴を研究するために使用されます。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98