🚀 XLM - RoBERTa (base) 言語検出モデル (現代語と中世語)
このモデルは、[monasterium.net](https://www.icar - us.eu/en/cooperation/online - portals/monasterium - net/) データセットで微調整された xlm - roberta - base のバージョンです。このモデルは、41 種類の言語のテキストシーケンスを分類することができ、現代語と中世語の両方をサポートしています。
✨ 主な機能
- 41 種類の言語(現代語と中世語)のテキスト分類が可能。
- 高い精度で言語を検出でき、テストセットでの平均精度は 99.59%。
📦 インストール
# パッケージのインストール
!pip install transformers --quiet
💻 使用例
基本的な使用法
import torch
from transformers import pipeline
classificator = pipeline("text - classification", model="ERCDiDip/langdetect")
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
📚 ドキュメント
モデルの説明
この XLM - RoBERTa トランスフォーマーモデルの上には分類ヘッドがあります。詳細情報については、[XLM - RoBERTa (base - sized model)](https://huggingface.co/xlm - roberta - base) のカードまたは論文 Unsupervised Cross - lingual Representation Learning at Scale by Conneau et al. を参照してください。
想定される用途と制限
このモデルは、言語検出器として直接使用できます。すなわち、シーケンス分類タスクに使用できます。現在、以下の 41 種類の言語(現代語と中世語)をサポートしています。
現代語
ブルガリア語 (bg)、クロアチア語 (hr)、チェコ語 (cs)、デンマーク語 (da)、オランダ語 (nl)、英語 (en)、エストニア語 (et)、フィンランド語 (fi)、フランス語 (fr)、ドイツ語 (de)、ギリシャ語 (el)、ハンガリー語 (hu)、アイルランド語 (ga)、イタリア語 (it)、ラトビア語 (lv)、リトアニア語 (lt)、マルタ語 (mt)、ポーランド語 (pl)、ポルトガル語 (pt)、ルーマニア語 (ro)、スロバキア語 (sk)、スロベニア語 (sl)、スペイン語 (es)、スウェーデン語 (sv)、ロシア語 (ru)、トルコ語 (tr)、バスク語 (eu)、カタルーニャ語 (ca)、アルバニア語 (sq)、セルビア語 (se)、ウクライナ語 (uk)、ノルウェー語 (no)、アラビア語 (ar)、中国語 (zh)、ヘブライ語 (he)
中世語
中高ドイツ語 (mhd)、ラテン語 (la)、中低ドイツ語 (gml)、古フランス語 (fro)、古教会スラブ語 (chu)、初期新高ドイツ語 (fnhd)、古代および中世ギリシャ語 (grc)
トレーニングと評価データ
このモデルは、Monasterium と Wikipedia のデータセットを使用して微調整されました。これらのデータセットは 41 種類の言語のテキストシーケンスで構成されています。トレーニングセットには 80k のサンプルが含まれ、検証セットとテストセットには 16k のサンプルが含まれています。テストセットでの平均精度は 99.59% です(これは平均マクロ/加重 F1 スコアと一致し、テストセットは完全にバランスが取れています)。
トレーニング手順
微調整は、WeightedLossTrainer を使用した Trainer API を介して行われました。
トレーニングハイパーパラメータ
トレーニング中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 2e - 05
- train_batch_size: 20
- eval_batch_size: 20
- seed: 42
- optimizer: Adam(betas=(0.9, 0.999)、epsilon = 1e - 08)
- lr_scheduler_type: linear
- num_epochs: 3
- mixed_precision_training: Native AMP
トレーニング結果
トレーニング損失 |
検証損失 |
F1 |
0.000300 |
0.048985 |
0.991585 |
0.000100 |
0.033340 |
0.994663 |
0.000000 |
0.032938 |
0.995979 |
アップデート
- 2022 年 11 月 25 日: 古代および中世ギリシャ語 (grc) の追加
フレームワークバージョン
- Transformers 4.24.0
- Pytorch 1.13.0
- Datasets 2.6.1
- Tokenizers 0.13.3
引用
このモデルを使用する場合は、以下の論文を引用してください。
@misc{ercdidip2022,
title={langdetect (Revision 0215f72)},
author={Kovács, Tamás, Atzenhofer - Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
year = { 2022 },
url = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
doi = { 10.57967/hf/0135 },
publisher = { Hugging Face }
}
このモデルは、欧州研究評議会(ERC)によって資金提供された From Digital to Distant Diplomatics (DiDip) ERC project の一部です。
📄 ライセンス
このモデルは MIT ライセンスの下で提供されています。