🚀 XLMR-MaCoCu-tr 土耳其語預訓練語言模型
XLMR-MaCoCu-tr 是一個在土耳其語文本上進行訓練的大型預訓練語言模型。它基於 XLM-RoBERTa-large 模型繼續訓練而來,是 MaCoCu 項目的一部分,僅使用該項目期間爬取的數據。主要開發者是來自格羅寧根大學的 Rik van Noord。
🚀 快速開始
你可以按照以下步驟使用 XLMR-MaCoCu-tr 模型:
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
✨ 主要特性
📦 安裝指南
使用該模型需要安裝 transformers
庫,你可以使用以下命令進行安裝:
pip install transformers
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr")
📚 詳細文檔
訓練數據
訓練時,使用了單語土耳其語 MaCoCu 語料庫中的所有土耳其語數據。經過數據去重後,共得到 35GB 的文本,相當於 44 億個標記。
訓練參數
XLMR-MaCoCu-tr 在 35GB 的土耳其語文本(相當於 44 億個標記)上進行訓練。訓練步數為 70,000 步,批量大小為 1,024。它使用與原始 XLMR-large 模型相同的詞彙表。
訓練和微調流程
訓練和微調流程的詳細描述可在我們的 Github 倉庫 中查看。
基準測試性能
我們在 Universal Dependencies 項目的 XPOS、UPOS 和 NER 基準測試中測試了 XLMR-MaCoCu-tr 的性能。對於 COPA 任務,我們在機器翻譯(MT)數據集上進行訓練(詳情見我們的 Github 倉庫),並在類似的 MT 數據集以及 XCOPA 項目的人工翻譯(HT)測試集上進行評估。我們將其性能與多語言模型 XLMR-base 和 XLMR-large,以及單語 BERTurk 模型進行了比較。關於微調流程的詳細信息,你可以查看我們的 Github。
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test (MT) |
Test (HT) |
XLM-R-base |
89.0 |
89.0 |
90.4 |
90.6 |
92.8 |
92.6 |
56.0 |
53.2 |
XLM-R-large |
89.4 |
89.3 |
90.8 |
90.7 |
94.1 |
94.1 |
52.1 |
50.5 |
BERTurk |
88.2 |
88.4 |
89.7 |
89.6 |
92.6 |
92.6 |
57.0 |
56.4 |
XLMR-MaCoCu-tr |
89.1 |
89.4 |
90.7 |
90.5 |
94.4 |
94.4 |
60.7 |
58.5 |
注:分數是三次運行的平均值,COPA 任務使用 10 次運行的結果。對於 POS/NER 任務,所有模型使用相同的超參數設置;對於 COPA 任務,我們在開發集上優化了每個模型的學習率。
📄 許可證
本項目採用 CC0-1.0 許可證。
🔗 致謝
本研究得到了 Google 的 TPU 研究雲(TRC)的 Cloud TPU 支持。作者獲得了歐盟 2014 - 2020 年連接歐洲設施 - CEF 電信的資助,資助協議編號為 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
📖 引用
如果你使用此模型,請引用以下論文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}