开源语言检测模型 - 支持20种语言文本分类的免费应用工具

首页

Language Detection

由 eleldar 开发

基于XLM-RoBERTa的语言检测模型，支持20种语言的文本分类

文本分类

Transformers

开源协议:MIT #高精度语言检测 #多语言支持 #文本分类

下载量 496

发布时间 : 5/24/2022

模型简介

该模型是在xlm-roberta-base基础上微调的语言检测器，用于识别文本的语言类别。

模型特点

高准确率

在测试集上达到99.6%的平均准确率

多语言支持

支持20种常见语言的检测

基于XLM-RoBERTa

利用强大的跨语言预训练模型作为基础

模型能力

文本语言识别

多语言文本分类

使用案例

内容管理

多语言内容分类

自动识别用户生成内容的语言

准确率99.6%

数据分析

社交媒体语言分析

分析社交媒体上不同语言内容的分布

🚀 XLM-RoBERTa基础语言检测模型

本模型基于XLM-RoBERTa架构，在多语言识别任务上进行了微调，能够精准识别20种不同语言，为多语言处理场景提供了高效的解决方案。

🚀 快速开始

可直接从 https://huggingface.co/papluca/xlm-roberta-base-language-detection 克隆该模型。

✨ 主要特性

微调优化：该模型是 xlm-roberta-base 在语言识别数据集上的微调版本。
多语言支持：支持20种语言的识别，包括阿拉伯语、保加利亚语、德语等。
高精度表现：在测试集上平均准确率达到 99.6% ，与平均宏/加权F1分数相匹配。

📚 详细文档

模型描述

此模型是一个XLM - RoBERTa变压器模型，顶部带有一个分类头（即池化输出上的线性层）。如需更多信息，请参考 xlm - roberta - base 模型卡片或Conneau等人的论文大规模无监督跨语言表征学习。

预期用途与限制

可直接将此模型用作语言检测器，即用于序列分类任务。目前，它支持以下20种语言： 阿拉伯语 (ar)、保加利亚语 (bg)、德语 (de)、现代希腊语 (el)、英语 (en)、西班牙语 (es)、法语 (fr)、印地语 (hi)、意大利语 (it)、日语 (ja)、荷兰语 (nl)、波兰语 (pl)、葡萄牙语 (pt)、俄语 (ru)、斯瓦希里语 (sw)、泰语 (th)、土耳其语 (tr)、乌尔都语 (ur)、越南语 (vi) 和中文 (zh)

训练和评估数据

该模型在语言识别数据集上进行了微调，该数据集由20种语言的文本序列组成。训练集包含70k个样本，而验证集和测试集各有10k个样本。测试集上的平均准确率为 99.6% （由于测试集完全平衡，这与平均宏/加权F1分数相匹配）。以下表格提供了更详细的评估。

语言	精确率	召回率	F1分数	样本数
ar	0.998	0.996	0.997	500
bg	0.998	0.964	0.981	500
de	0.998	0.996	0.997	500
el	0.996	1.000	0.998	500
en	1.000	1.000	1.000	500
es	0.967	1.000	0.983	500
fr	1.000	1.000	1.000	500
hi	0.994	0.992	0.993	500
it	1.000	0.992	0.996	500
ja	0.996	0.996	0.996	500
nl	1.000	1.000	1.000	500
pl	1.000	1.000	1.000	500
pt	0.988	1.000	0.994	500
ru	1.000	0.994	0.997	500
sw	1.000	1.000	1.000	500
th	1.000	0.998	0.999	500
tr	0.994	0.992	0.993	500
ur	1.000	1.000	1.000	500
vi	0.992	1.000	0.996	500
zh	1.000	1.000	1.000	500

基准测试

为了与 xlm - roberta - base - language - detection 进行对比，我们使用了Python langid 库。由于它预先在97种语言上进行了训练，我们使用其 .set_languages() 方法将语言集限制为我们的20种语言。langid在测试集上的平均准确率为 98.5% 。以下表格提供了更多详细信息。

语言	精确率	召回率	F1分数	样本数
ar	0.990	0.970	0.980	500
bg	0.998	0.964	0.981	500
de	0.992	0.944	0.967	500
el	1.000	0.998	0.999	500
en	1.000	1.000	1.000	500
es	1.000	0.968	0.984	500
fr	0.996	1.000	0.998	500
hi	0.949	0.976	0.963	500
it	0.990	0.980	0.985	500
ja	0.927	0.988	0.956	500
nl	0.980	1.000	0.990	500
pl	0.986	0.996	0.991	500
pt	0.950	0.996	0.973	500
ru	0.996	0.974	0.985	500
sw	1.000	1.000	1.000	500
th	1.000	0.996	0.998	500
tr	0.990	0.968	0.979	500
ur	0.998	0.996	0.997	500
vi	0.971	0.990	0.980	500
zh	1.000	1.000	1.000	500