開源language_detection模型 - 支持200種語言文本分類的多語言檢測工具

Home

Language Detection

Developed by alexneakameni

基於BERT的多語言檢測模型，支持200種語言的文本分類任務

文本分類

Safetensors

Supports Multiple LanguagesOpen Source License:MIT #多語言文本分類 #高精度語言識別 #BERT架構優化

Downloads 1,210

Release Time : 2/13/2025

Model Overview

這是一個基於BERT架構的語言檢測模型，專門用於快速準確地識別文本的語言類型。模型在包含200種語言的1.21億條句子的數據集上訓練，具有高準確率和召回率。

Model Features

多語言支持

支持200種語言的檢測，包括主要歐洲語言、亞洲語言和非洲語言

高準確率

在測試集上達到0.9733的準確率，F1分數0.9733

數據增強

採用多種文本增強策略提高模型魯棒性，包括移除數字、打亂詞序等

高效架構

基於BERT的精簡架構，4層Transformer，適合快速推理

Model Capabilities

文本語言識別

多語言文本分類

短文本語言檢測

長文本語言檢測

Use Cases

內容管理

多語言內容分類

自動識別用戶生成內容的語言類型

準確率97.33%

翻譯系統

翻譯前語言檢測

在翻譯流程前自動檢測輸入文本語言

支持200種語言識別

🚀 語言檢測模型

這是一個基於BERT的語言檢測模型，在hac541309/open-lid-dataset上進行訓練，該數據集包含200種語言的1.21億個句子。此模型針對文本分類任務中的語言識別進行了優化，能夠快速且準確地識別語言。

📦 模型信息

屬性	詳情
模型類型	BertForSequenceClassification
隱藏層大小	384
層數	4
注意力頭數	6
最大序列長度	512
丟棄率	0.1
詞彙表大小	50,257

📚 訓練過程

數據集

使用了open-lid-dataset。
按90%（訓練集）和10%（測試集）的比例進行劃分。

分詞器

使用自定義的BertTokenizerFast，包含[UNK]、[CLS]、[SEP]、[PAD]、[MASK]等特殊標記。

超參數

學習率：2e-5
批量大小：訓練時為256，測試時為512
訓練輪數：1
調度器：Cosine

訓練器

利用Hugging Face的Trainer API進行訓練，並使用Weights & Biases進行日誌記錄。

🔧 數據增強

為了提高模型的泛化能力和魯棒性，引入了一種新的文本增強策略，具體包括：

隨機去除數字
打亂單詞順序以增加多樣性
有選擇地去除單詞
添加隨機數字以模擬噪聲
修改標點符號以處理不同的文本格式

增強效果

引入這些增強方法後，模型的整體性能得到了提升，最新的評估結果如下：

📊 評估

更新後的性能指標

準確率：0.9733
精確率：0.9735
召回率：0.9733
F1分數：0.9733

詳細評估（約1200萬條文本）

腳本	支持數量	精確率	召回率	F1分數	大小
Arab	502886	0.908169	0.91335	0.909868	21
Latn	4.86532e+06	0.973172	0.972221	0.972646	125
Ethi	88564	0.996634	0.996459	0.996546	2
Beng	100502	0.995	0.992859	0.993915	3
Deva	260227	0.950405	0.942772	0.946355	10
Cyrl	510229	0.991342	0.989693	0.990513	12
Tibt	21863	0.992792	0.993665	0.993222	2
Grek	80445	0.998758	0.999391	0.999074	1
Gujr	53237	0.999981	0.999925	0.999953	1
Hebr	61576	0.996375	0.998904	0.997635	2
Armn	41146	0.999927	0.999927	0.999927	1
Jpan	53963	0.999147	0.998721	0.998934	1
Knda	40989	0.999976	0.999902	0.999939	1
Geor	43399	0.999977	0.999908	0.999942	1
Khmr	24348	1	0.999959	0.999979	1
Hang	66447	0.999759	0.999955	0.999857	1
Laoo	18353	1	0.999837	0.999918	1
Mlym	41899	0.999976	0.999976	0.999976	1
Mymr	62067	0.999898	0.999207	0.999552	2
Orya	27626	1	0.999855	0.999928	1
Guru	40856	1	0.999902	0.999951	1
Olck	13646	0.999853	1	0.999927	1
Sinh	41437	1	0.999952	0.999976	1
Taml	46832	0.999979	1	0.999989	1
Tfng	25238	0.849058	0.823968	0.823808	2
Telu	38251	1	0.999922	0.999961	1
Thai	51428	0.999922	0.999961	0.999942	1
Hant	94042	0.993966	0.995907	0.994935	2
Hans	57006	0.99007	0.986405	0.988234	1

與之前性能的對比

引入文本增強方法後，模型在相同評估數據集上的性能有所提升，準確率從0.9695提高到0.9733，平均精確率、召回率和F1分數也有類似的提升。

💡 總結

新的文本增強技術的引入顯著提高了模型的準確率和魯棒性。這些改進使模型能夠更好地在不同語言腳本上進行泛化，提高了其在實際應用中的可用性。

倉庫中還提供了詳細的按腳本分類報告，以供進一步分析。

💻 使用示例

基礎用法

你可以使用Transformers pipeline快速加載並運行此模型進行推理：

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

tokenizer = AutoTokenizer.from_pretrained("alexneakameni/language_detection")
model = AutoModelForSequenceClassification.from_pretrained("alexneakameni/language_detection")

language_detection = pipeline("text-classification", model=model, tokenizer=tokenizer)

text = "Hello world!"
predictions = language_detection(text)
print(predictions)

這將輸出預測的語言代碼或標籤以及相應的置信度分數。