langdetectオープンソース言語検出モデル - 41種類の古今の言語テキストの高速分類をサポート

ホーム

Langdetect

ERCDiDipによって開発

XLM-RoBERTa-baseをファインチューニングした言語検出モデルで、41の現代および中世言語のテキスト分類をサポート

テキスト分類

Transformers

オープンソースライセンス:MIT #高精度言語検出 #中世言語サポート #41言語識別

ダウンロード数 6,687

リリース時間 : 11/25/2022

モデル概要

このモデルは言語検出タスクに使用され、現代語と中世語を含む41言語を識別できます。多言語テキスト分類が必要なシナリオに適しています。

モデル特徴

多言語サポート

41の現代および中世言語の検出をサポートし、一部の珍しい古代言語も含む

高精度

テストセットで99.59%の平均精度を達成

XLM-RoBERTaベース

強力なXLM-RoBERTa-baseモデルをファインチューニングし、優れたクロスランゲージ表現能力を備える

モデル能力

テキスト分類

言語検出

多言語処理

使用事例

文書処理

歴史文書の言語識別

中世文書の言語タイプを識別

古フランス語、ラテン語などの中世言語を正確に識別

多言語コンテンツ分類

複数言語を含むテキストを分類

サポートする41言語を正確に区別

学術研究

言語学分析

言語学研究者がテキストの言語特徴を分析するのを支援

高精度な言語識別結果を提供

🚀 XLM - RoBERTa (base) 言語検出モデル (現代語と中世語)

このモデルは、[monasterium.net](https://www.icar - us.eu/en/cooperation/online - portals/monasterium - net/) データセットで微調整された xlm - roberta - base のバージョンです。このモデルは、41 種類の言語のテキストシーケンスを分類することができ、現代語と中世語の両方をサポートしています。

✨ 主な機能

41 種類の言語（現代語と中世語）のテキスト分類が可能。
高い精度で言語を検出でき、テストセットでの平均精度は 99.59%。

📦 インストール

# パッケージのインストール
!pip install transformers --quiet

💻 使用例

基本的な使用法

# ライブラリのインポート
import torch
from transformers import pipeline

# パイプラインの定義
classificator = pipeline("text - classification", model="ERCDiDip/langdetect")

# パイプラインの使用
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")

📚 ドキュメント

モデルの説明

この XLM - RoBERTa トランスフォーマーモデルの上には分類ヘッドがあります。詳細情報については、[XLM - RoBERTa (base - sized model)](https://huggingface.co/xlm - roberta - base) のカードまたは論文 Unsupervised Cross - lingual Representation Learning at Scale by Conneau et al. を参照してください。

想定される用途と制限

このモデルは、言語検出器として直接使用できます。すなわち、シーケンス分類タスクに使用できます。現在、以下の 41 種類の言語（現代語と中世語）をサポートしています。

現代語

ブルガリア語 (bg)、クロアチア語 (hr)、チェコ語 (cs)、デンマーク語 (da)、オランダ語 (nl)、英語 (en)、エストニア語 (et)、フィンランド語 (fi)、フランス語 (fr)、ドイツ語 (de)、ギリシャ語 (el)、ハンガリー語 (hu)、アイルランド語 (ga)、イタリア語 (it)、ラトビア語 (lv)、リトアニア語 (lt)、マルタ語 (mt)、ポーランド語 (pl)、ポルトガル語 (pt)、ルーマニア語 (ro)、スロバキア語 (sk)、スロベニア語 (sl)、スペイン語 (es)、スウェーデン語 (sv)、ロシア語 (ru)、トルコ語 (tr)、バスク語 (eu)、カタルーニャ語 (ca)、アルバニア語 (sq)、セルビア語 (se)、ウクライナ語 (uk)、ノルウェー語 (no)、アラビア語 (ar)、中国語 (zh)、ヘブライ語 (he)

中世語

中高ドイツ語 (mhd)、ラテン語 (la)、中低ドイツ語 (gml)、古フランス語 (fro)、古教会スラブ語 (chu)、初期新高ドイツ語 (fnhd)、古代および中世ギリシャ語 (grc)

トレーニングと評価データ

このモデルは、Monasterium と Wikipedia のデータセットを使用して微調整されました。これらのデータセットは 41 種類の言語のテキストシーケンスで構成されています。トレーニングセットには 80k のサンプルが含まれ、検証セットとテストセットには 16k のサンプルが含まれています。テストセットでの平均精度は 99.59% です（これは平均マクロ/加重 F1 スコアと一致し、テストセットは完全にバランスが取れています）。

トレーニング手順

微調整は、WeightedLossTrainer を使用した Trainer API を介して行われました。

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 2e - 05
train_batch_size: 20
eval_batch_size: 20
seed: 42
optimizer: Adam（betas=(0.9, 0.999)、epsilon = 1e - 08）
lr_scheduler_type: linear
num_epochs: 3
mixed_precision_training: Native AMP

トレーニング結果

トレーニング損失	検証損失	F1
0.000300	0.048985	0.991585
0.000100	0.033340	0.994663
0.000000	0.032938	0.995979

アップデート

2022 年 11 月 25 日: 古代および中世ギリシャ語 (grc) の追加

フレームワークバージョン

Transformers 4.24.0
Pytorch 1.13.0
Datasets 2.6.1
Tokenizers 0.13.3

引用

このモデルを使用する場合は、以下の論文を引用してください。

@misc{ercdidip2022,
  title={langdetect (Revision 0215f72)},
  author={Kovács, Tamás, Atzenhofer - Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
  year         = { 2022 },
  url          = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
  doi          = { 10.57967/hf/0135 },
  publisher    = { Hugging Face }
}

このモデルは、欧州研究評議会（ERC）によって資金提供された From Digital to Distant Diplomatics (DiDip) ERC project の一部です。