開源語言檢測模型 - 支持20種語言文本分類的免費應用工具

首頁

Language Detection

由eleldar開發

基於XLM-RoBERTa的語言檢測模型，支持20種語言的文本分類

文本分類

Transformers

開源協議:MIT #高精度語言檢測 #多語言支持 #文本分類

下載量 496

發布時間 : 5/24/2022

模型概述

該模型是在xlm-roberta-base基礎上微調的語言檢測器，用於識別文本的語言類別。

模型特點

高準確率

在測試集上達到99.6%的平均準確率

多語言支持

支持20種常見語言的檢測

基於XLM-RoBERTa

利用強大的跨語言預訓練模型作為基礎

模型能力

文本語言識別

多語言文本分類

使用案例

內容管理

多語言內容分類

自動識別用戶生成內容的語言

準確率99.6%

數據分析

社交媒體語言分析

分析社交媒體上不同語言內容的分佈

🚀 XLM-RoBERTa基礎語言檢測模型

本模型基於XLM-RoBERTa架構，在多語言識別任務上進行了微調，能夠精準識別20種不同語言，為多語言處理場景提供了高效的解決方案。

🚀 快速開始

可直接從 https://huggingface.co/papluca/xlm-roberta-base-language-detection 克隆該模型。

✨ 主要特性

微調優化：該模型是 xlm-roberta-base 在語言識別數據集上的微調版本。
多語言支持：支持20種語言的識別，包括阿拉伯語、保加利亞語、德語等。
高精度表現：在測試集上平均準確率達到 99.6% ，與平均宏/加權F1分數相匹配。

📚 詳細文檔

模型描述

此模型是一個XLM - RoBERTa變壓器模型，頂部帶有一個分類頭（即池化輸出上的線性層）。如需更多信息，請參考 xlm - roberta - base 模型卡片或Conneau等人的論文大規模無監督跨語言表徵學習。

預期用途與限制

可直接將此模型用作語言檢測器，即用於序列分類任務。目前，它支持以下20種語言： 阿拉伯語 (ar)、保加利亞語 (bg)、德語 (de)、現代希臘語 (el)、英語 (en)、西班牙語 (es)、法語 (fr)、印地語 (hi)、意大利語 (it)、日語 (ja)、荷蘭語 (nl)、波蘭語 (pl)、葡萄牙語 (pt)、俄語 (ru)、斯瓦希里語 (sw)、泰語 (th)、土耳其語 (tr)、烏爾都語 (ur)、越南語 (vi) 和中文 (zh)

訓練和評估數據

該模型在語言識別數據集上進行了微調，該數據集由20種語言的文本序列組成。訓練集包含70k個樣本，而驗證集和測試集各有10k個樣本。測試集上的平均準確率為 99.6% （由於測試集完全平衡，這與平均宏/加權F1分數相匹配）。以下表格提供了更詳細的評估。

語言	精確率	召回率	F1分數	樣本數
ar	0.998	0.996	0.997	500
bg	0.998	0.964	0.981	500
de	0.998	0.996	0.997	500
el	0.996	1.000	0.998	500
en	1.000	1.000	1.000	500
es	0.967	1.000	0.983	500
fr	1.000	1.000	1.000	500
hi	0.994	0.992	0.993	500
it	1.000	0.992	0.996	500
ja	0.996	0.996	0.996	500
nl	1.000	1.000	1.000	500
pl	1.000	1.000	1.000	500
pt	0.988	1.000	0.994	500
ru	1.000	0.994	0.997	500
sw	1.000	1.000	1.000	500
th	1.000	0.998	0.999	500
tr	0.994	0.992	0.993	500
ur	1.000	1.000	1.000	500
vi	0.992	1.000	0.996	500
zh	1.000	1.000	1.000	500

基準測試

為了與 xlm - roberta - base - language - detection 進行對比，我們使用了Python langid 庫。由於它預先在97種語言上進行了訓練，我們使用其 .set_languages() 方法將語言集限制為我們的20種語言。langid在測試集上的平均準確率為 98.5% 。以下表格提供了更多詳細信息。

語言	精確率	召回率	F1分數	樣本數
ar	0.990	0.970	0.980	500
bg	0.998	0.964	0.981	500
de	0.992	0.944	0.967	500
el	1.000	0.998	0.999	500
en	1.000	1.000	1.000	500
es	1.000	0.968	0.984	500
fr	0.996	1.000	0.998	500
hi	0.949	0.976	0.963	500
it	0.990	0.980	0.985	500
ja	0.927	0.988	0.956	500
nl	0.980	1.000	0.990	500
pl	0.986	0.996	0.991	500
pt	0.950	0.996	0.973	500
ru	0.996	0.974	0.985	500
sw	1.000	1.000	1.000	500
th	1.000	0.996	0.998	500
tr	0.990	0.968	0.979	500
ur	0.998	0.996	0.997	500
vi	0.971	0.990	0.980	500
zh	1.000	1.000	1.000	500