BERTovski开源语言模型 - 基于保语和马语训练助力文本处理应用

首页

Bertovski

由 MaCoCu 开发

BERTovski是基于保加利亚语和马其顿语文本训练的大型预训练语言模型，采用RoBERTa架构，是MaCoCu项目的成果。

大型语言模型其他#保加利亚语-马其顿语专用 #RoBERTa架构优化 #低资源语言处理

下载量 28

发布时间 : 8/11/2022

模型简介

BERTovski是一个专注于保加利亚语和马其顿语的自然语言处理模型，适用于多种语言任务，如词性标注、命名实体识别等。

模型特点

多语言支持

专注于保加利亚语和马其顿语，同时支持多语言处理任务。

高质量训练数据

训练数据经过严格筛选，仅包含原始.bg/.mk域的高质量文本，避免低质量机翻内容。

平衡数据分布

通过复制马其顿语数据平衡语料比例，确保两种语言在模型中的均衡表现。

模型能力

词性标注

命名实体识别

常识推理

文本理解

使用案例

自然语言处理

保加利亚语词性标注

在Universal Dependencies数据集上进行词性标注任务。

测试集准确率99.1%

马其顿语命名实体识别

在babushka-bench数据集上进行命名实体识别。

测试集准确率94.6%

语言理解

常识推理

在COPA测试集上进行常识推理任务。

保加利亚语51.7%，马其顿语51.8%

🚀 BERTovski大预训练语言模型

BERTovski 是一个基于保加利亚语和马其顿语文本训练的大型预训练语言模型。它采用RoBERTa架构从头开始训练，是 MaCoCu 项目的一部分。主要开发者是来自格罗宁根大学的 Rik van Noord。该模型在74GB文本（约70多亿个标记）上进行了训练，训练步数为300,000，批次大小为2,048，约30个轮次。

🚀 快速开始

模型使用

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/BERTovski") # Tensorflow

训练和微调

训练和微调的具体步骤可查看 Github仓库。我们计划对该模型进行更长时间的训练，敬请关注新版本！

✨ 主要特性

多语言支持：支持保加利亚语（bg）、马其顿语（mk）等多语言。
大规模训练：在74GB文本上进行训练，约70多亿个标记。
架构先进：采用RoBERTa架构从头开始训练。

📦 安装指南

暂未提及具体安装步骤，可参考模型使用部分的代码示例。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/BERTovski")
model = AutoModel.from_pretrained("RVN/BERTovski") # PyTorch
model = TFAutoModel.from_pretrained("RVN/BERTovski") # Tensorflow

📚 详细文档

数据使用

训练数据来自 MaCoCu、Oscar、mc4 和维基百科语料库中的保加利亚语和马其顿语数据。在手动分析中发现，Oscar和mc4中非对应域名（.bg或.mk）的数据常为机器翻译且质量不佳，因此仅使用来自.bg或.mk域名的原始数据。去重后，共有54.5GB保加利亚语文本和9GB马其顿语文本。由于保加利亚语数据较多，训练时将马其顿语数据翻倍。在保加利亚语/马其顿语比例为50/50的子集上训练了一个包含32,000个词片的共享词汇表。

基准测试

在XPOS、UPOS和NER基准测试中对BERTovski进行了性能测试。保加利亚语使用 Universal Dependencies 项目的数据，马其顿语使用 babushka-bench 项目创建的数据集。还在谷歌翻译（保加利亚语）和人工翻译（马其顿语）的COPA数据集上进行了测试（详情见 Github仓库）。将性能与多语言模型XLMR-base和XLMR-large进行了比较。微调步骤详情可查看 Github。

保加利亚语测试结果

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	99.2	99.4	98.0	98.3	93.2	92.9	56.9
XLM-R-large	99.3	99.4	97.4	97.7	93.7	93.5	53.1
BERTovski	98.8	99.1	97.6	97.8	93.5	93.3	51.7

马其顿语测试结果

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA
	Dev	Test	Dev	Test	Dev	Test	Test
XLM-R-base	98.3	98.6	97.3	97.1	92.8	94.8	55.3
XLM-R-large	98.3	98.7	97.7	97.5	93.3	95.1	52.5
BERTovski	97.8	98.1	96.4	96.0	92.8	94.6	51.8

致谢

本研究得到了谷歌TPU研究云（TRC）的Cloud TPU支持。作者获得了欧盟连接欧洲设施2014 - 2020 - CEF电信项目的资助，资助协议编号为INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用

如果使用该模型，请引用以下论文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}