🚀 MaltBERTa
MaltBERTaは、マルタ語のテキストで学習された大規模事前学習言語モデルです。RoBERTaアーキテクチャを使用してゼロから学習されました。これはMaCoCuプロジェクトの一環として開発されました。主な開発者は、グロニンゲン大学のRik van Noordです。
🚀 クイックスタート
MaltBERTaは、3.2GBのテキスト(439Mトークンに相当)で学習されました。バッチサイズ1,024で100,000ステップ学習されました。学習と微調整の手順については、Githubリポジトリで詳細に説明されています。
✨ 主な機能
MaltBERTaは、マルタ語のテキストに特化した大規模事前学習言語モデルです。RoBERTaアーキテクチャを使用してゼロから学習され、マルタ語の自然言語処理タスクに適しています。
📦 インストール
MaltBERTaを使用するには、transformers
ライブラリをインストールする必要があります。以下のコードを使用して、トークナイザーとモデルをロードできます。
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/MaltBERTa")
model = AutoModel.from_pretrained("RVN/MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/MaltBERTa")
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/MaltBERTa")
model = AutoModel.from_pretrained("RVN/MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/MaltBERTa")
📚 ドキュメント
データ
学習には、MaCoCu、Oscar、mc4コーパスに含まれるすべてのマルタ語データを使用しました。データを重複排除した後、合計3.2GBのテキストが残りました。Oscarとmc4の.mtドメインからのデータのみで学習する実験も行いましたが、すべてのデータを組み込むことでより良いパフォーマンスが得られました。
ベンチマーク性能
MaltBERTaの性能は、Universal DependenciesプロジェクトのUPOSとXPOSベンチマークでテストされました。さらに、Google翻訳版のCOPAデータセットでもテストしています(詳細はGithubリポジトリを参照)。性能を、強力な多言語モデルであるXLMR-baseとXLMR-largeと比較していますが、これらのモデルの学習言語にはマルタ語は含まれていません。また、最近導入されたマルタ語モデルであるBERTu、mBERTu、および独自のMaltBERTaとも比較しています。微調整手順の詳細については、Githubをチェックアウトできます。
Property |
Details |
Model Type |
MaltBERTaは、RoBERTaアーキテクチャを使用してゼロから学習された大規模事前学習言語モデルです。 |
Training Data |
学習には、MaCoCu、Oscar、mc4コーパスに含まれるすべてのマルタ語データを使用しました。データを重複排除した後、合計3.2GBのテキストが残りました。 |
|
UPOS |
UPOS |
XPOS |
XPOS |
COPA |
|
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
93.6 |
93.2 |
93.4 |
93.2 |
52.2 |
XLM-R-large |
94.9 |
94.4 |
95.1 |
94.7 |
54.0 |
BERTu |
97.5 |
97.6 |
95.7 |
95.8 |
55.6 |
mBERTu |
97.7 |
97.8 |
97.9 |
98.1 |
52.6 |
MaltBERTa |
95.7 |
95.8 |
96.1 |
96.0 |
53.7 |
🔧 技術詳細
MaltBERTaは、RoBERTaアーキテクチャを使用してゼロから学習されました。学習には、3.2GBのテキスト(439Mトークンに相当)を使用し、100,000ステップでバッチサイズ1,024で学習されました。
📄 ライセンス
このモデルは、CC0-1.0ライセンスの下で提供されています。
🙏 謝辞
この研究は、GoogleのTPU Research Cloud (TRC) からのCloud TPUでサポートされています。著者は、欧州連合のConnecting Europe Facility 2014 - 2020 - CEF Telecomから、助成契約番号INEA/CEF/ICT/A2020/2278341 (MaCoCu) の下で資金提供を受けています。
📖 引用
このモデルを使用する場合は、以下の論文を引用してください。
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}