🚀 XLMR-MaCoCu-is
XLMR-MaCoCu-isは、アイスランド語のテキストで学習された大規模事前学習言語モデルです。このモデルは、XLM-RoBERTa-largeモデルからの継続学習によって作成されました。MaCoCuプロジェクトの一環として開発され、プロジェクト中に収集されたデータのみを使用しています。主な開発者は、グロニンゲン大学のRik van Noordです。
🚀 クイックスタート
このモデルは、アイスランド語のテキストに対して事前学習された大規模言語モデルです。以下のセクションでは、モデルの詳細、使用方法、データ、ベンチマーク性能などについて説明します。
✨ 主な機能
- アイスランド語対応:4.4GBのアイスランド語テキスト(6億8800万トークン)で学習されたモデルです。
- 継続学習:XLM-RoBERTa-largeモデルからの継続学習によって作成されています。
- 多言語比較:多言語モデルや単言語モデルとの性能比較が可能です。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコードを使用して、モデルとトークナイザーをロードすることができます。
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-is")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-is")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
📚 ドキュメント
モデルの詳細
XLMR-MaCoCu-isは、4.4GBのアイスランド語テキスト(688Mトークン)で学習されました。バッチサイズ1,024で75,000ステップ学習され、元のXLMR-largeモデルと同じ語彙を使用しています。学習と微調整の手順については、Githubリポジトリで詳細に説明されています。
データ
学習には、単言語のアイスランド語MaCoCuコーパスに含まれるすべてのアイスランド語データを使用しました。データの重複除去後、合計4.4GBのテキスト(688Mトークン)が残りました。
ベンチマーク性能
XLMR-MaCoCu-isの性能を、XPOS、UPOS、NER、COPAのベンチマークでテストしました。UPOSとXPOSには、Universal Dependenciesプロジェクトのデータを使用し、NERにはMIM-GOLD-NERデータセットのデータを使用しました。COPAには、Google翻訳を使用して英語のデータセットを自動翻訳したものを使用しました。詳細については、Githubリポジトリを参照してください。
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
96.8 |
96.5 |
94.6 |
94.3 |
85.3 |
89.7 |
55.2 |
XLM-R-large |
97.0 |
96.7 |
94.9 |
94.7 |
88.5 |
91.7 |
54.3 |
IceBERT |
96.4 |
96.0 |
94.0 |
93.7 |
83.8 |
89.7 |
54.6 |
XLMR-MaCoCu-is |
97.3 |
97.0 |
95.4 |
95.1 |
90.8 |
93.2 |
59.6 |
謝辞
この研究は、GoogleのTPU Research Cloud (TRC)からのCloud TPUでサポートされています。著者らは、欧州連合のConnecting Europe Facility 2014 - 2020 - CEF Telecomから、助成契約番号INEA/CEF/ICT/A2020/2278341 (MaCoCu)で資金提供を受けています。
引用
このモデルを使用する場合は、以下の論文を引用してください。
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 ライセンス
このモデルは、CC0-1.0ライセンスの下で提供されています。