deoffxlmr-mono-tamil开源模型 - 精准检测泰米尔语代码混合文本冒犯内容

首页

Deoffxlmr Mono Tamil

由 Hate-speech-CNERG 开发

该模型用于检测泰米尔语代码混合文本中的冒犯性内容，基于XLM-Roberta-Base模型训练，在EACL 2021达罗毗荼语系冒犯性语言识别共享任务中表现优异。

文本分类

Transformers

其他开源协议:Apache-2.0 #泰米尔语冒犯检测 #代码混合文本处理 #XLM-Roberta微调

下载量 100

发布时间 : 3/2/2022

模型简介

专门用于识别泰米尔语（包括纯文本及代码混合形式）中的冒犯性内容的单语模型，采用Transformer架构，在特定数据集上取得了较高的检测准确率。

模型特点

单语专注优化

专门针对泰米尔语（包括代码混合形式）进行优化，相比多语言模型在特定语言任务上表现更优

集成策略优势

采用遗传算法集成技术，在共享任务中获得了泰米尔语子任务第一名的成绩

低资源语言解决方案

针对泰米尔语等低资源语言的冒犯性内容检测难题提供了有效解决方案

模型能力

泰米尔语文本分类

代码混合文本处理

冒犯性内容识别

使用案例

内容审核

社交媒体内容过滤

自动检测泰米尔语社交媒体中的冒犯性言论

在测试集上达到0.76的加权F1分数

语言研究

达罗毗荼语系语言分析

用于研究泰米尔语等低资源语言中的冒犯性语言特征

🚀 泰米尔语冒犯性内容检测模型

本模型用于检测泰米尔语代码混合语言中的冒犯性内容。名称中的“mono”指单语设置，即该模型仅使用泰米尔语（纯泰米尔语和代码混合语）数据进行训练。模型权重初始化为预训练的XLM - Roberta - Base，在使用交叉熵损失进行微调之前，先在目标数据集上使用掩码语言建模进行预训练。

该模型是为EACL 2021达罗毗荼语系语言冒犯性语言识别共享任务训练的多个模型中表现最优的。基于遗传算法的集成测试预测在排行榜上获得了最高的加权F1分数（保留测试集上的加权F1分数：本模型 - 0.76，集成模型 - 0.78）。

📚 详细文档

关于我们的论文详情

Debjoy Saha, Naman Paharia, Debajit Chakraborty, Punyajoy Saha, Animesh Mukherjee. "[Hate - Alert@DravidianLangTech - EACL2021: Ensembling strategies for Transformer - based Offensive language Detection](https://www.aclweb.org/anthology/2021.dravidianlangtech - 1.38/)"。

请在任何使用这些资源的已发表作品中引用我们的论文。

@inproceedings{saha-etal-2021-hate,
    title = "Hate-Alert@{D}ravidian{L}ang{T}ech-{EACL}2021: Ensembling strategies for Transformer-based Offensive language Detection",
    author = "Saha, Debjoy and Paharia, Naman and Chakraborty, Debajit and Saha, Punyajoy and Mukherjee, Animesh",
    booktitle = "Proceedings of the First Workshop on Speech and Language Technologies for Dravidian Languages",
    month = apr,
    year = "2021",
    address = "Kyiv",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.dravidianlangtech-1.38",
    pages = "270--276",
    abstract = "Social media often acts as breeding grounds for different forms of offensive content. For low resource languages like Tamil, the situation is more complex due to the poor performance of multilingual or language-specific models and lack of proper benchmark datasets. Based on this shared task {``}Offensive Language Identification in Dravidian Languages{''} at EACL 2021; we present an exhaustive exploration of different transformer models, We also provide a genetic algorithm technique for ensembling different models. Our ensembled models trained separately for each language secured the first position in Tamil, the second position in Kannada, and the first position in Malayalam sub-tasks. The models and codes are provided.",
}