🚀 XLMR-MaCoCu-is冰島語預訓練語言模型
XLMR-MaCoCu-is 是一個基於冰島語文本訓練的大型預訓練語言模型。它在 XLM-RoBERTa-large 模型基礎上繼續訓練得到,是 MaCoCu 項目的一部分,僅使用該項目期間爬取的數據。主要開發者是來自格羅寧根大學的 Rik van Noord。
🚀 快速開始
模型使用示例
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-is")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-is")
✨ 主要特性
📦 安裝指南
文檔未提及具體安裝步驟,可參考 transformers 庫的安裝方法。
📚 詳細文檔
模型描述
XLMR-MaCoCu-is 在 4.4GB 的冰島語文本(相當於 6.88 億個標記)上進行訓練,訓練步數為 75000 步,批量大小為 1024。它使用與原始 XLMR-large 模型相同的詞彙表。訓練和微調過程的詳細信息可在我們的 Github 倉庫 中查看。
數據說明
訓練時使用了單語冰島語 MaCoCu 語料庫中的所有冰島語數據。去重後,共有 4.4GB 的文本,相當於 6.88 億個標記。
基準測試性能
我們在 XPOS、UPOS、NER 和 COPA 基準測試中測試了 XLMR-MaCoCu-is 的性能。
- 數據來源:
- 對比模型:與多語言模型 XLMR-base 和 XLMR-large,以及單語 IceBERT 模型進行對比。
- 測試結果:
| | UPOS | UPOS | XPOS | XPOS | NER | NER | COPA |
|--------------------|:--------:|:--------:|:--------:|:--------:|---------|----------| ----------|
| | Dev | Test | Dev | Test | Dev | Test | Test |
| XLM-R-base | 96.8 | 96.5 | 94.6 | 94.3 | 85.3 | 89.7 | 55.2 |
| XLM-R-large | 97.0 | 96.7 | 94.9 | 94.7 | 88.5 | 91.7 | 54.3 |
| IceBERT | 96.4 | 96.0 | 94.0 | 93.7 | 83.8 | 89.7 | 54.6 |
| XLMR-MaCoCu-is | 97.3 | 97.0 | 95.4 | 95.1 | 90.8 | 93.2 | 59.6 |
致謝
本研究得到了谷歌 TPU 研究雲(TRC)的 Cloud TPU 支持。作者獲得了歐盟連接歐洲設施 2014 - 2020 - CEF 電信的資助,資助協議編號為 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用信息
如果您使用此模型,請引用以下論文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 許可證
本模型使用 CC0-1.0 許可證。