XLMR-MaltBERTa开源语言模型 - 免费使用助力马耳他语文本处理

首页

XLMR MaltBERTa

由 MaCoCu 开发

基于马耳他语文本大规模预训练的语言模型，在XLM-RoBERTa-large基础上继续训练得到

大型语言模型其他#马耳他语处理 #多任务微调 #大规模预训练

下载量 20

发布时间 : 8/11/2022

模型简介

XLMR-MaltBERTa是一个专门针对马耳他语优化的语言模型，适用于各种自然语言处理任务。

模型特点

马耳他语优化

专门针对马耳他语进行大规模预训练，提供更好的语言理解能力

基于XLM-RoBERTa-large

在强大的XLM-RoBERTa-large模型基础上继续训练，继承了其优秀特性

大规模训练数据

使用3.2GB马耳他语文本(4.39亿词元)进行训练

模型能力

文本理解

词性标注

语言推理

使用案例

自然语言处理

词性标注

在Universal Dependencies项目的UPOS/XPOS基准上进行词性标注

在测试集上达到98.1(UPOS)和98.2(XPOS)的高准确率

语言推理

在谷歌翻译版COPA数据集上进行语言推理

测试集准确率达到54.4

🚀 XLMR-MaltBERTa

XLMR-MaltBERTa 是一个基于马耳他语文本训练的大型预训练语言模型。它在 XLM-RoBERTa-large 模型的基础上继续训练得到，是 MaCoCu 项目的一部分。主要开发者是来自格罗宁根大学的 Rik van Noord。

🚀 快速开始

你可以按照以下代码示例使用 XLMR-MaltBERTa 模型：

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa") # Tensorflow

✨ 主要特性

基于已有模型扩展：在 XLM-RoBERTa-large 模型基础上继续训练，充分利用已有模型的优势。
特定语言训练：专门针对马耳他语文本进行训练，更适合处理马耳他语相关的任务。
与其他模型对比优势明显：在 UPOS、XPOS 和 COPA 等基准测试中，相比其他多语言模型和马耳他语模型，表现出了更优的性能。

📦 安装指南

暂未提供具体安装步骤，可参考代码示例中使用 transformers 库加载模型的方式，确保 transformers 库已正确安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaltBERTa")
model = AutoModel.from_pretrained("RVN/XLMR-MaltBERTa") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaltBERTa") # Tensorflow

📚 详细文档

模型描述

XLMR-MaltBERTa 在 3.2GB 的文本（相当于 4.39 亿个标记）上进行了训练，训练步数为 50,000，批次大小为 1,024。它使用了与原始 XLMR-large 模型相同的词汇表。该模型与 MaltBERTa 在相同的数据上进行训练，但本模型是使用 RoBERTa 架构从头开始训练的。训练和微调过程的详细信息可在我们的 Github 仓库中查看。

数据来源

训练时，我们使用了 MaCoCu、Oscar 和 mc4 语料库中所有的马耳他语数据。经过数据去重后，最终得到了 3.2GB 的文本数据。

基准测试性能

我们在通用依存关系项目的 UPOS 和 XPOS 基准测试中对 MaltBERTa 的性能进行了测试。此外，我们还在 Google 翻译版本的 COPA 数据集上进行了测试（详情可查看我们的 Github 仓库）。我们将其性能与强大的多语言模型 XLMR-base 和 XLMR-large 进行了比较，需要注意的是，马耳他语并非这些模型的训练语言之一。我们还与最近推出的马耳他语模型 BERTu、mBERTu 以及我们自己的 MaltBERTa 进行了比较。关于微调过程的详细信息，你可以查看我们的 Github。

分数是 UPOS/XPOS 三次运行和 COPA 十次运行的平均值。对于 UPOS/XPOS，我们对所有模型使用相同的超参数设置，而对于 COPA，我们在开发集上进行了优化。

	UPOS	UPOS	XPOS	XPOS	COPA
	开发集	测试集	开发集	测试集	测试集
XLM-R-base	93.6	93.2	93.4	93.2	52.2
XLM-R-large	94.9	94.4	95.1	94.7	54.0
BERTu	97.5	97.6	95.7	95.8	55.6
mBERTu	97.7	97.8	97.9	98.1	52.6
MaltBERTa	95.7	95.8	96.1	96.0	53.7
XLMR-MaltBERTa	97.7	98.1	98.1	98.2	54.4

🔧 技术细节

训练数据量：使用 3.2GB 的马耳他语文本数据进行训练，共计 4.39 亿个标记。
训练参数：训练步数为 50,000，批次大小为 1,024。
词汇表：使用与原始 XLMR-large 模型相同的词汇表。
架构：基于 RoBERTa 架构从头开始训练。

📄 许可证

本模型采用 CC0-1.0 许可证。

致谢

本研究得到了 Google 的 TPU 研究云（TRC）的 Cloud TPU 支持。作者们获得了欧盟连接欧洲设施 2014 - 2020 - CEF 电信的资助，资助协议编号为 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

引用

如果您使用此模型，请引用以下论文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}