🚀 XLMR-MaCoCu-tr
XLMR-MaCoCu-tr は、トルコ語のテキストで学習された大規模な事前学習言語モデルです。このモデルは、XLM-RoBERTa-large モデルからの継続学習によって作成されました。MaCoCu プロジェクトの一環として開発され、プロジェクト中にクロールされたデータのみを使用しています。主な開発者は、グロニンゲン大学の Rik van Noord です。
🚀 クイックスタート
このセクションでは、XLMR-MaCoCu-tr モデルの基本的な使い方を説明します。
✨ 主な機能
- トルコ語特化:35GBのトルコ語テキスト(44億トークン)で学習されているため、トルコ語に特化した高性能を発揮します。
- 継続学習:XLM-RoBERTa-large モデルからの継続学習により、既存の知識を活かしています。
- 多言語比較:多言語モデルや単言語モデルとの比較でも良好なパフォーマンスを示します。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコードでインストールできます。
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
📚 ドキュメント
データ
学習には、単言語のトルコ語 MaCoCu コーパスに含まれるすべてのトルコ語データを使用しました。データの重複排除後、合計35GBのテキスト(44億トークン)が残りました。
ベンチマーク性能
XLMR-MaCoCu-tr のパフォーマンスを、Universal Dependencies プロジェクトの XPOS、UPOS、NER のベンチマークでテストしました。COPA については、機械翻訳(MT)データセットで学習し、同様の MT データセットと XCOPA プロジェクトの人間翻訳(HT)テストセットで評価しました。多言語モデルの XLMR-base と XLMR-large、および単言語の BERTurk モデルとのパフォーマンスを比較しました。微調整手順の詳細については、Github を参照してください。
モデル |
UPOS (Dev) |
UPOS (Test) |
XPOS (Dev) |
XPOS (Test) |
NER (Dev) |
NER (Test) |
COPA (Test (MT)) |
COPA (Test (HT)) |
XLM-R-base |
89.0 |
89.0 |
90.4 |
90.6 |
92.8 |
92.6 |
56.0 |
53.2 |
XLM-R-large |
89.4 |
89.3 |
90.8 |
90.7 |
94.1 |
94.1 |
52.1 |
50.5 |
BERTurk |
88.2 |
88.4 |
89.7 |
89.6 |
92.6 |
92.6 |
57.0 |
56.4 |
XLMR-MaCoCu-tr |
89.1 |
89.4 |
90.7 |
90.5 |
94.4 |
94.4 |
60.7 |
58.5 |
謝辞
この研究は、GoogleのTPU Research Cloud (TRC) からのCloud TPUでサポートされています。著者らは、欧州連合の Connecting Europe Facility 2014 - 2020 - CEF Telecom から、助成契約番号 INEA/CEF/ICT/A2020/2278341 (MaCoCu) で資金提供を受けています。
引用
このモデルを使用する場合は、以下の論文を引用してください。
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 ライセンス
このモデルは、CC0-1.0 ライセンスの下で提供されています。