🚀 XLMR-BERTovski
XLMR-BERTovski は、ブルガリア語とマケドニア語のテキストで学習された大規模な事前学習言語モデルです。このモデルは、XLM-RoBERTa-large モデルからの継続学習によって作成され、MaCoCu プロジェクトの一環として開発されました。主な開発者は、グロニンゲン大学の Rik van Noord です。
🚀 クイックスタート
このセクションでは、XLMR-BERTovski モデルの基本的な使い方を説明します。
✨ 主な機能
- ブルガリア語とマケドニア語のテキストに特化した事前学習が行われています。
- XLM-RoBERTa-large モデルからの継続学習により、高い性能を発揮します。
📦 インストール
このモデルは、Hugging Face の Transformers ライブラリを通じて利用できます。以下のコードでインストールできます。
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
高度な使用法
高度な使用法については、モデルの微調整や特定のタスクへの適用などが考えられます。具体的なコードは、タスクに応じて異なります。
📚 ドキュメント
モデルの詳細
XLMR-BERTovski は、74GB のブルガリア語とマケドニア語のテキスト(約 70 億トークン)で学習されました。バッチサイズ 1,024 で 67,500 ステップ(約 2.5 エポック)学習され、元の XLMR-large モデルと同じ語彙を使用しています。このモデルは、BERTovski と同じデータで学習されていますが、RoBERTa アーキテクチャを使用してゼロから学習されています。
学習データ
学習には、MaCoCu、Oscar、mc4、Wikipedia コーパスに含まれるすべてのブルガリア語とマケドニア語のデータを使用しました。手動分析の結果、Oscar と mc4 のデータでは、対応するドメイン(.bg または .mk)から来ていない場合は、しばしば(不適切に)機械翻訳されていることがわかりました。そのため、元々 .bg または .mk ドメインから来たデータのみを使用することにしました。
データの重複排除後、合計 54.5GB のブルガリア語と 9GB のマケドニア語のテキストが残りました。ブルガリア語のデータがかなり多かったため、学習中にマケドニア語のデータを単純に 2 倍にしました。
ベンチマーク性能
XLMR-BERTovski の性能は、XPOS、UPOS、NER のベンチマークでテストされました。ブルガリア語には、Universal Dependencies プロジェクトのデータを使用し、マケドニア語には、babushka-bench プロジェクトで作成されたデータセットを使用しました。また、COPA データセットの Google(ブルガリア語)および人手(マケドニア語)翻訳版でもテストしました(詳細は、Github リポジトリ を参照)。性能は、BERTovski および強力な多言語モデルである XLMR-base と XLMR-large と比較されます。微調整手順の詳細については、Github をチェックアウトできます。
スコアは、3 回の実行の平均ですが、COPA については 10 回の実行を使用します。UPOS/XPOS/NER のすべてのモデルに同じハイパーパラメータ設定を使用し、COPA については、開発セットで学習率を最適化しました。
ブルガリア語
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
XLMR-BERTovski |
99.3 |
99.5 |
98.5 |
98.8 |
94.4 |
94.3 |
54.6 |
マケドニア語
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
XLMR-BERTovski |
98.6 |
98.8 |
98.0 |
97.7 |
94.4 |
96.3 |
55.6 |
📄 ライセンス
このモデルは、CC0-1.0 ライセンスの下で提供されています。
謝辞
この研究は、Google の TPU Research Cloud (TRC) からの Cloud TPU でサポートされています。著者は、欧州連合の Connecting Europe Facility 2014 - 2020 - CEF Telecom からの助成金契約番号 INEA/CEF/ICT/A2020/2278341 (MaCoCu) の下で資金提供を受けています。
引用
このモデルを使用する場合は、次の論文を引用してください。
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}