langdetect開源語言檢測模型 - 支持41種古今語言文本快速分類

首頁

Langdetect

由ERCDiDip開發

基於XLM-RoBERTa-base微調的語言檢測模型，支持41種現代和中世紀語言的文本分類

文本分類

Transformers

開源協議:MIT #高精度語言檢測 #中世紀語言支持 #41種語言識別

下載量 6,687

發布時間 : 11/25/2022

模型概述

該模型用於語言檢測任務，能夠識別包括現代和中世紀語言在內的41種語言。適用於需要多語言文本分類的場景。

模型特點

多語言支持

支持41種現代和中世紀語言的檢測，包括一些罕見的古語言

高準確率

在測試集上達到99.59%的平均準確率

基於XLM-RoBERTa

利用強大的XLM-RoBERTa-base模型進行微調，具備優秀的跨語言表示能力

模型能力

文本分類

語言檢測

多語言處理

使用案例

文檔處理

歷史文獻語言識別

識別中世紀文獻的語言類型

準確識別古法語、拉丁語等中世紀語言

多語言內容分類

對包含多種語言的文本進行分類

準確區分41種支持的語言

學術研究

語言學分析

輔助語言學研究者分析文本語言特徵

提供高精度的語言識別結果

🚀 XLM - RoBERTa (基礎版) 語言檢測模型（現代與中世紀語言）

本模型是基於 monasterium.net 數據集對 xlm - roberta - base 進行微調後的版本，可用於檢測現代和中世紀的多種語言，為語言識別任務提供了強大的支持。

🚀 快速開始

安裝依賴

#Install packages
!pip install transformers --quiet

導入庫並定義管道

#Import libraries
import torch
from transformers import pipeline

#Define pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")

使用管道進行語言檢測

#Use pipeline
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")

✨ 主要特性

多語言支持：支持 41 種現代和中世紀語言的檢測，涵蓋了歐洲、亞洲等多種語言體系。
高精度：在測試集上的平均準確率達到 99.59%，與平均宏/加權 F1 分數相匹配。
微調優化：基於 Monasterium 和 Wikipedia 數據集進行微調，提升了模型在特定任務上的性能。

📦 安裝指南

使用以下命令安裝所需的 transformers 庫：

!pip install transformers --quiet

💻 使用示例

基礎用法

#Install packages
!pip install transformers --quiet

#Import libraries
import torch
from transformers import pipeline

#Define pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")

#Use pipeline
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")

📚 詳細文檔

支持的語言

現代語言

保加利亞語（bg）、克羅地亞語（hr）、捷克語（cs）、丹麥語（da）、荷蘭語（nl）、英語（en）、愛沙尼亞語（et）、芬蘭語（fi）、法語（fr）、德語（de）、希臘語（el）、匈牙利語（hu）、愛爾蘭語（ga）、意大利語（it）、拉脫維亞語（lv）、立陶宛語（lt）、馬耳他語（mt）、波蘭語（pl）、葡萄牙語（pt）、羅馬尼亞語（ro）、斯洛伐克語（sk）、斯洛文尼亞語（sl）、西班牙語（es）、瑞典語（sv）、俄語（ru）、土耳其語（tr）、巴斯克語（eu）、加泰羅尼亞語（ca）、阿爾巴尼亞語（sq）、塞爾維亞語（se）、烏克蘭語（uk）、挪威語（no）、阿拉伯語（ar）、中文（zh）、希伯來語（he）

中世紀語言

中古高地德語（mhd）、拉丁語（la）、中古低地德語（gml）、古法語（fro）、古教會斯拉夫語（chu）、早期新高地德語（fnhd）、古希臘和中世紀希臘語（grc）

訓練和評估數據

模型使用 Monasterium 和 Wikipedia 數據集進行微調，這些數據集包含 41 種語言的文本序列。訓練集包含 80k 個樣本，驗證集和測試集各包含 16k 個樣本。

訓練過程

微調通過 Trainer API 和 WeightedLossTrainer 完成。

訓練超參數

學習率（learning_rate）：2e - 05
訓練批次大小（train_batch_size）：20
評估批次大小（eval_batch_size）：20
隨機種子（seed）：42
優化器（optimizer）：Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
學習率調度器類型（lr_scheduler_type）：線性
訓練輪數（num_epochs）：3
混合精度訓練（mixed_precision_training）：Native AMP

訓練結果

訓練損失（Training Loss）	驗證損失（Validation Loss）	F1 分數
0.000300	0.048985	0.991585
0.000100	0.033340	0.994663
0.000000	0.032938	0.995979

🔧 技術細節

本模型基於 XLM - RoBERTa 變壓器模型，在其頂部添加了一個分類頭。如需瞭解更多信息，請參考 [XLM - RoBERTa（基礎大小模型）](https://huggingface.co/xlm - roberta - base) 卡片或論文 Unsupervised Cross - lingual Representation Learning at Scale by Conneau et al.。

📄 許可證

本模型採用 MIT 許可證。

引用

使用此模型時，請引用以下論文：

@misc{ercdidip2022,
  title={langdetect (Revision 0215f72)},
  author={Kovács, Tamás, Atzenhofer - Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
  year         = { 2022 },
  url          = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
  doi          = { 10.57967/hf/0135 },
  publisher    = { Hugging Face }
}

本模型是由歐洲研究委員會資助的 From Digital to Distant Diplomatics (DiDip) ERC 項目的一部分。