🚀 XLMR-MaltBERTa
XLMR-MaltBERTa 是一个基于马耳他语文本训练的大型预训练语言模型。它在 XLM-RoBERTa-large 模型的基础上继续训练得到,是 MaCoCu 项目的一部分。主要开发者是来自格罗宁根大学的 Rik van Noord。
🚀 快速开始
你可以按照以下代码示例使用 XLMR-MaltBERTa 模型:
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
✨ 主要特性
- 基于已有模型扩展:在 XLM-RoBERTa-large 模型基础上继续训练,充分利用已有模型的优势。
- 特定语言训练:专门针对马耳他语文本进行训练,更适合处理马耳他语相关的任务。
- 与其他模型对比优势明显:在 UPOS、XPOS 和 COPA 等基准测试中,相比其他多语言模型和马耳他语模型,表现出了更优的性能。
📦 安装指南
暂未提供具体安装步骤,可参考代码示例中使用 transformers
库加载模型的方式,确保 transformers
库已正确安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa")
📚 详细文档
模型描述
XLMR-MaltBERTa 在 3.2GB 的文本(相当于 4.39 亿个标记)上进行了训练,训练步数为 50,000,批次大小为 1,024。它使用了与原始 XLMR-large 模型相同的词汇表。该模型与 MaltBERTa 在相同的数据上进行训练,但本模型是使用 RoBERTa 架构从头开始训练的。训练和微调过程的详细信息可在我们的 Github 仓库 中查看。
数据来源
训练时,我们使用了 MaCoCu、Oscar 和 mc4 语料库中所有的马耳他语数据。经过数据去重后,最终得到了 3.2GB 的文本数据。
基准测试性能
我们在 通用依存关系 项目的 UPOS 和 XPOS 基准测试中对 MaltBERTa 的性能进行了测试。此外,我们还在 Google 翻译版本的 COPA 数据集上进行了测试(详情可查看我们的 Github 仓库)。我们将其性能与强大的多语言模型 XLMR-base 和 XLMR-large 进行了比较,需要注意的是,马耳他语并非这些模型的训练语言之一。我们还与最近推出的马耳他语模型 BERTu、mBERTu 以及我们自己的 MaltBERTa 进行了比较。关于微调过程的详细信息,你可以查看我们的 Github。
分数是 UPOS/XPOS 三次运行和 COPA 十次运行的平均值。对于 UPOS/XPOS,我们对所有模型使用相同的超参数设置,而对于 COPA,我们在开发集上进行了优化。
|
UPOS |
UPOS |
XPOS |
XPOS |
COPA |
|
开发集 |
测试集 |
开发集 |
测试集 |
测试集 |
XLM-R-base |
93.6 |
93.2 |
93.4 |
93.2 |
52.2 |
XLM-R-large |
94.9 |
94.4 |
95.1 |
94.7 |
54.0 |
BERTu |
97.5 |
97.6 |
95.7 |
95.8 |
55.6 |
mBERTu |
97.7 |
97.8 |
97.9 |
98.1 |
52.6 |
MaltBERTa |
95.7 |
95.8 |
96.1 |
96.0 |
53.7 |
XLMR-MaltBERTa |
97.7 |
98.1 |
98.1 |
98.2 |
54.4 |
🔧 技术细节
- 训练数据量:使用 3.2GB 的马耳他语文本数据进行训练,共计 4.39 亿个标记。
- 训练参数:训练步数为 50,000,批次大小为 1,024。
- 词汇表:使用与原始 XLMR-large 模型相同的词汇表。
- 架构:基于 RoBERTa 架构从头开始训练。
📄 许可证
本模型采用 CC0-1.0 许可证。
致谢
本研究得到了 Google 的 TPU 研究云(TRC)的 Cloud TPU 支持。作者们获得了欧盟连接欧洲设施 2014 - 2020 - CEF 电信的资助,资助协议编号为 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用
如果您使用此模型,请引用以下论文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}