XLMR - BERTovskiオープンソース言語モデル - ブルガリア語とマケドニア語のテキスト処理アプリケーションを支援します

ホーム

XLMR BERTovski

MaCoCuによって開発

ブルガリア語とマケドニア語のテキストを用いた大規模事前学習言語モデルで、MaCoCuプロジェクトの一部

大規模言語モデルその他#ブルガリア語最適化 #マケドニア語最適化 #多言語NLP

ダウンロード数 36

リリース時間 : 8/11/2022

モデル概要

XLMR-BERTovskiはXLM-RoBERTa-largeを基にブルガリア語とマケドニア語で継続学習した言語モデルで、自然言語処理タスクに主に使用されます

モデル特徴

大規模二言語事前学習

74GBのブルガリア語とマケドニア語テキストで訓練され、70億以上のトークンを含む

最適化されたデータサンプリング

データ量が少ないマケドニア語データを2倍サンプリングし、両言語の訓練バランスを調整

高品質な訓練データ

.bgと.mkドメインのデータを厳選し、低品質な機械翻訳コンテンツを排除

モデル能力

品詞タグ付け（UPOS/XPOS）

固有表現認識（NER）

常識推論（COPA）

ブルガリア語テキスト処理

マケドニア語テキスト処理

使用事例

言語分析

ブルガリア語品詞タグ付け

ブルガリア語テキストの品詞タグ付け

テストセットで99.5%の精度（UPOS）

マケドニア語固有表現認識

マケドニア語テキストの固有表現を識別

テストセットでF1値96.3%

言語理解

常識推論タスク

ブルガリア語とマケドニア語のCOPA常識推論問題を解決

精度はそれぞれ54.6%と55.6%

🚀 XLMR-BERTovski

XLMR-BERTovski は、ブルガリア語とマケドニア語のテキストで学習された大規模な事前学習言語モデルです。このモデルは、XLM-RoBERTa-large モデルからの継続学習によって作成され、MaCoCu プロジェクトの一環として開発されました。主な開発者は、グロニンゲン大学の Rik van Noord です。

🚀 クイックスタート

このセクションでは、XLMR-BERTovski モデルの基本的な使い方を説明します。

✨ 主な機能

ブルガリア語とマケドニア語のテキストに特化した事前学習が行われています。
XLM-RoBERTa-large モデルからの継続学習により、高い性能を発揮します。

📦 インストール

このモデルは、Hugging Face の Transformers ライブラリを通じて利用できます。以下のコードでインストールできます。

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski") # Tensorflow

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski") # Tensorflow

高度な使用法

高度な使用法については、モデルの微調整や特定のタスクへの適用などが考えられます。具体的なコードは、タスクに応じて異なります。

📚 ドキュメント

モデルの詳細

XLMR-BERTovski は、74GB のブルガリア語とマケドニア語のテキスト（約 70 億トークン）で学習されました。バッチサイズ 1,024 で 67,500 ステップ（約 2.5 エポック）学習され、元の XLMR-large モデルと同じ語彙を使用しています。このモデルは、BERTovski と同じデータで学習されていますが、RoBERTa アーキテクチャを使用してゼロから学習されています。

学習データ

学習には、MaCoCu、Oscar、mc4、Wikipedia コーパスに含まれるすべてのブルガリア語とマケドニア語のデータを使用しました。手動分析の結果、Oscar と mc4 のデータでは、対応するドメイン（.bg または .mk）から来ていない場合は、しばしば（不適切に）機械翻訳されていることがわかりました。そのため、元々 .bg または .mk ドメインから来たデータのみを使用することにしました。

データの重複排除後、合計 54.5GB のブルガリア語と 9GB のマケドニア語のテキストが残りました。ブルガリア語のデータがかなり多かったため、学習中にマケドニア語のデータを単純に 2 倍にしました。

ベンチマーク性能

XLMR-BERTovski の性能は、XPOS、UPOS、NER のベンチマークでテストされました。ブルガリア語には、Universal Dependencies プロジェクトのデータを使用し、マケドニア語には、babushka-bench プロジェクトで作成されたデータセットを使用しました。また、COPA データセットの Google（ブルガリア語）および人手（マケドニア語）翻訳版でもテストしました（詳細は、Github リポジトリを参照）。性能は、BERTovski および強力な多言語モデルである XLMR-base と XLMR-large と比較されます。微調整手順の詳細については、Github をチェックアウトできます。

スコアは、3 回の実行の平均ですが、COPA については 10 回の実行を使用します。UPOS/XPOS/NER のすべてのモデルに同じハイパーパラメータ設定を使用し、COPA については、開発セットで学習率を最適化しました。

ブルガリア語

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	99.2	99.4	98.0	98.3	93.2	92.9	56.9
XLM-R-large	99.3	99.4	97.4	97.7	93.7	93.5	53.1
BERTovski	98.8	99.1	97.6	97.8	93.5	93.3	51.7
XLMR-BERTovski	99.3	99.5	98.5	98.8	94.4	94.3	54.6

マケドニア語

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	98.3	98.6	97.3	97.1	92.8	94.8	55.3
XLM-R-large	98.3	98.7	97.7	97.5	93.3	95.1	52.5
BERTovski	97.8	98.1	96.4	96.0	92.8	94.6	51.8
XLMR-BERTovski	98.6	98.8	98.0	97.7	94.4	96.3	55.6

📄 ライセンス

このモデルは、CC0-1.0 ライセンスの下で提供されています。

謝辞

この研究は、Google の TPU Research Cloud (TRC) からの Cloud TPU でサポートされています。著者は、欧州連合の Connecting Europe Facility 2014 - 2020 - CEF Telecom からの助成金契約番号 INEA/CEF/ICT/A2020/2278341 (MaCoCu) の下で資金提供を受けています。

引用

このモデルを使用する場合は、次の論文を引用してください。

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}