🚀 XLMR-BERTovski模型
XLMR-BERTovski 是一个大型预训练语言模型,在保加利亚语和马其顿语文本上进行训练。它基于 XLM-RoBERTa-large 模型继续训练而来,是 MaCoCu 项目的一部分。主要开发者是来自格罗宁根大学的 Rik van Noord。该模型支持保加利亚语(bg)、马其顿语(mk)以及多语言(multilingual)。
🚀 快速开始
以下是使用 XLMR-BERTovski
模型的示例代码:
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
✨ 主要特性
- 语言支持:支持保加利亚语和马其顿语,适用于处理这两种语言的相关任务。
- 预训练基础:基于强大的 XLM-RoBERTa-large 模型继续训练,继承了其优秀的语言理解能力。
- 大规模数据训练:使用 74GB 的保加利亚语和马其顿语文本进行训练,约 70 多亿个标记,保证了模型的泛化能力。
📦 安装指南
暂未提及具体安装步骤,你可以参考 Hugging Face 相关文档进行模型的安装和使用。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-BERTovski")
model = AutoModel.from_pretrained("RVN/XLMR-BERTovski")
model = TFAutoModel.from_pretrained("RVN/XLMR-BERTovski")
📚 详细文档
模型描述
XLMR-BERTovski 在 74GB 的保加利亚语和马其顿语文本上进行训练,约 70 多亿个标记。训练进行了 67,500 步,批次大小为 1,024,约 2.5 个周期。它使用与原始 XLMR-large 模型相同的词汇表。该模型与 BERTovski 使用相同的数据进行训练,但本模型使用 RoBERTa 架构从头开始训练。训练和微调过程的详细信息可在 Github 仓库 中查看。
数据
训练时使用了 MaCoCu、Oscar、mc4 和维基百科语料库中的所有保加利亚语和马其顿语数据。在手动分析中发现,对于 Oscar 和 mc4 语料库,如果数据不是来自相应的域名(.bg 或 .mk),则通常是(质量较差的)机器翻译数据。因此,仅使用了最初来自 .bg 或 .mk 域名的数据。去重后,共有 54.5GB 的保加利亚语文本和 9GB 的马其顿语文本。由于保加利亚语数据较多,训练时将马其顿语数据简单翻倍。
基准性能
在 XPOS、UPOS 和 NER 基准测试中对 XLMR-BERTovski 的性能进行了测试。对于保加利亚语,使用了 通用依存关系 项目的数据;对于马其顿语,使用了 babushka-bench 项目中创建的数据集。还在 COPA 数据集的谷歌(保加利亚语)和人工(马其顿语)翻译版本上进行了测试(详细信息见 Github 仓库)。将其性能与 BERTovski 以及强大的多语言模型 XLMR-base 和 XLMR-large 进行了比较。关于微调过程的详细信息,可查看 Github。
保加利亚语
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
XLMR-BERTovski |
99.3 |
99.5 |
98.5 |
98.8 |
94.4 |
94.3 |
54.6 |
马其顿语
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
XLMR-BERTovski |
98.6 |
98.8 |
98.0 |
97.7 |
94.4 |
96.3 |
55.6 |
致谢
本研究得到了谷歌 TPU 研究云(TRC)的 Cloud TPU 支持。作者获得了欧盟连接欧洲设施 2014 - 2020 - CEF 电信的资助,资助协议编号为 INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用
如果使用此模型,请引用以下论文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 许可证
该模型使用 CC0-1.0 许可证。