🚀 XLMR-MaltBERTa
XLMR-MaltBERTa は、マルタ語のテキストで学習された大規模な事前学習言語モデルです。このモデルは、XLM-RoBERTa-large モデルからの継続学習によって作成されました。MaCoCu プロジェクトの一環として開発され、主な開発者はグロニンゲン大学の Rik van Noord です。
🚀 クイックスタート
このセクションでは、XLMR-MaltBERTa の概要と使い方について説明します。
✨ 主な機能
- マルタ語向けの事前学習:3.2GB(439Mトークン)のマルタ語テキストで学習されています。
- XLM-RoBERTa-large からの継続学習:既存の強力なモデルをベースにしています。
- 同じ語彙を使用:元の XLMR-large モデルと同じ語彙を使用しています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
📚 ドキュメント
データ
学習には、MaCoCu、Oscar、mc4 コーパスに含まれるすべてのマルタ語データを使用しました。データを重複排除した後、合計 3.2GB のテキストが残りました。
ベンチマーク性能
このモデルの性能を、Universal Dependencies プロジェクトの UPOS および XPOS ベンチマークでテストしました。また、Google 翻訳版の COPA データセットでもテストしています。詳細については、Github リポジトリ を参照してください。
Property |
Details |
Model Type |
XLMR-MaltBERTaは、XLM-RoBERTa-largeモデルからの継続学習によって作成された大規模な事前学習言語モデルです。 |
Training Data |
学習には、MaCoCu、Oscar、mc4コーパスに含まれる3.2GBのマルタ語テキスト(439Mトークン)を使用しました。 |
|
UPOS |
UPOS |
XPOS |
XPOS |
COPA |
|
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
93.6 |
93.2 |
93.4 |
93.2 |
52.2 |
XLM-R-large |
94.9 |
94.4 |
95.1 |
94.7 |
54.0 |
BERTu |
97.5 |
97.6 |
95.7 |
95.8 |
55.6 |
mBERTu |
97.7 |
97.8 |
97.9 |
98.1 |
52.6 |
MaltBERTa |
95.7 |
95.8 |
96.1 |
96.0 |
53.7 |
XLMR-MaltBERTa |
97.7 |
98.1 |
98.1 |
98.2 |
54.4 |
謝辞
この研究は、Google の TPU Research Cloud (TRC) からの Cloud TPU でサポートされています。著者らは、欧州連合の Connecting Europe Facility 2014 - 2020 - CEF Telecom からの助成金(契約番号 INEA/CEF/ICT/A2020/2278341 (MaCoCu))を受けています。
引用
このモデルを使用する場合は、以下の論文を引用してください。
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 ライセンス
このモデルは、CC0-1.0 ライセンスの下で提供されています。