🚀 BERTovski
BERTovskiは、ブルガリア語とマケドニア語のテキストで学習された大規模事前学習言語モデルです。RoBERTaアーキテクチャを使用してゼロから学習されました。MaCoCuプロジェクトの一環として開発されました。主な開発者は、グロニンゲン大学のRik van Noordです。
🚀 クイックスタート
BERTovskiは、74GBのテキスト(約70億トークン)で学習されました。バッチサイズ2,048で300,000ステップ(約30エポック)学習されました。
学習と微調整の手順については、Githubリポジトリで詳細に説明されています。このモデルをさらに長時間学習する予定ですので、新しいバージョンにも注目してください!
✨ 主な機能
- ブルガリア語とマケドニア語のテキストで学習された大規模事前学習言語モデル。
- RoBERTaアーキテクチャを使用してゼロから学習。
- MaCoCuプロジェクトの一環として開発。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski")
model = TFAutoModel.from_pretrained("RVN/BERTovski")
📚 ドキュメント
データ
学習には、MaCoCu、Oscar、mc4、Wikipediaコーパスに含まれるすべてのブルガリア語とマケドニア語のデータを使用しました。手動分析では、Oscarとmc4のデータが対応するドメイン(.bgまたは.mk)から来ていない場合、多くの場合(不適切に)機械翻訳されていることがわかりました。したがって、元々.bgまたは.mkドメインから来たデータのみを使用することにしました。
データを重複排除した後、合計54.5GBのブルガリア語テキストと9GBのマケドニア語テキストが残りました。ブルガリア語のデータがかなり多かったため、学習中にマケドニア語のデータを単純に2倍にしました。ブルガリア語とマケドニア語の比率が50/50のデータのサブセットで、32,000個の共有語彙を学習しました。
ベンチマーク性能
BERTovskiの性能を、XPOS、UPOS、NERのベンチマークでテストしました。ブルガリア語には、Universal Dependenciesプロジェクトのデータを使用しました。マケドニア語には、babushka-benchプロジェクトで作成されたデータセットを使用しました。また、COPAデータセットのGoogle(ブルガリア語)および人手(マケドニア語)翻訳バージョンでもテストしました(詳細については、Githubリポジトリを参照)。性能を、強力な多言語モデルであるXLMR-baseとXLMR-largeと比較しました。微調整手順の詳細については、Githubを確認できます。
スコアは、3回の実行の平均ですが、COPAについては10回の実行を使用します。UPOS/XPOS/NERについては、すべてのモデルで同じハイパーパラメータ設定を使用し、COPAについては開発セットで学習率を最適化しました。
ブルガリア語
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
マケドニア語
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
📄 ライセンス
このモデルは、CC0-1.0ライセンスの下で提供されています。
🎉 謝辞
GoogleのTPU Research Cloud (TRC) からのCloud TPUでの研究支援を受けています。著者は、欧州連合のConnecting Europe Facility 2014 - 2020 - CEF Telecomから、助成契約番号INEA/CEF/ICT/A2020/2278341 (MaCoCu) の下で資金提供を受けています。
📖 引用
このモデルを使用する場合は、次の論文を引用してください。
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}