🚀 BERTovski大预训练语言模型
BERTovski 是一个基于保加利亚语和马其顿语文本训练的大型预训练语言模型。它采用RoBERTa架构从头开始训练,是 MaCoCu 项目的一部分。主要开发者是来自格罗宁根大学的 Rik van Noord。该模型在74GB文本(约70多亿个标记)上进行了训练,训练步数为300,000,批次大小为2,048,约30个轮次。
🚀 快速开始
模型使用
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski")
model = TFAutoModel.from_pretrained("RVN/BERTovski")
训练和微调
训练和微调的具体步骤可查看 Github仓库。我们计划对该模型进行更长时间的训练,敬请关注新版本!
✨ 主要特性
- 多语言支持:支持保加利亚语(bg)、马其顿语(mk)等多语言。
- 大规模训练:在74GB文本上进行训练,约70多亿个标记。
- 架构先进:采用RoBERTa架构从头开始训练。
📦 安装指南
暂未提及具体安装步骤,可参考模型使用部分的代码示例。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski")
model = TFAutoModel.from_pretrained("RVN/BERTovski")
📚 详细文档
数据使用
训练数据来自 MaCoCu、Oscar、mc4 和维基百科语料库中的保加利亚语和马其顿语数据。在手动分析中发现,Oscar和mc4中非对应域名(.bg或.mk)的数据常为机器翻译且质量不佳,因此仅使用来自.bg或.mk域名的原始数据。去重后,共有54.5GB保加利亚语文本和9GB马其顿语文本。由于保加利亚语数据较多,训练时将马其顿语数据翻倍。在保加利亚语/马其顿语比例为50/50的子集上训练了一个包含32,000个词片的共享词汇表。
基准测试
在XPOS、UPOS和NER基准测试中对BERTovski进行了性能测试。保加利亚语使用 Universal Dependencies 项目的数据,马其顿语使用 babushka-bench 项目创建的数据集。还在谷歌翻译(保加利亚语)和人工翻译(马其顿语)的COPA数据集上进行了测试(详情见 Github仓库)。将性能与多语言模型XLMR-base和XLMR-large进行了比较。微调步骤详情可查看 Github。
保加利亚语测试结果
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
99.2 |
99.4 |
98.0 |
98.3 |
93.2 |
92.9 |
56.9 |
XLM-R-large |
99.3 |
99.4 |
97.4 |
97.7 |
93.7 |
93.5 |
53.1 |
BERTovski |
98.8 |
99.1 |
97.6 |
97.8 |
93.5 |
93.3 |
51.7 |
马其顿语测试结果
|
UPOS |
UPOS |
XPOS |
XPOS |
NER |
NER |
COPA |
|
Dev |
Test |
Dev |
Test |
Dev |
Test |
Test |
XLM-R-base |
98.3 |
98.6 |
97.3 |
97.1 |
92.8 |
94.8 |
55.3 |
XLM-R-large |
98.3 |
98.7 |
97.7 |
97.5 |
93.3 |
95.1 |
52.5 |
BERTovski |
97.8 |
98.1 |
96.4 |
96.0 |
92.8 |
94.6 |
51.8 |
致谢
本研究得到了谷歌TPU研究云(TRC)的Cloud TPU支持。作者获得了欧盟连接欧洲设施2014 - 2020 - CEF电信项目的资助,资助协议编号为INEA/CEF/ICT/A2020/2278341(MaCoCu)。
引用
如果使用该模型,请引用以下论文:
@inproceedings{non-etal-2022-macocu,
title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
author = "Ba{\~n}{\'o}n, Marta and
Espl{\`a}-Gomis, Miquel and
Forcada, Mikel L. and
Garc{\'\i}a-Romero, Cristian and
Kuzman, Taja and
Ljube{\v{s}}i{\'c}, Nikola and
van Noord, Rik and
Sempere, Leopoldo Pla and
Ram{\'\i}rez-S{\'a}nchez, Gema and
Rupnik, Peter and
Suchomel, V{\'\i}t and
Toral, Antonio and
van der Werff, Tobias and
Zaragoza, Jaume",
booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
month = jun,
year = "2022",
address = "Ghent, Belgium",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2022.eamt-1.41",
pages = "303--304"
}
📄 许可证
本模型采用CC0-1.0许可证。