XLMR-MaCoCu-tr开源语言模型 - 用35GB土语文本训练赋能土耳其语应用

首页

XLMR MaCoCu Tr

由 MaCoCu 开发

XLMR-MaCoCu-tr 是基于土耳其语文本大规模预训练的语言模型，是MaCoCu项目的一部分，使用35GB土耳其语文本训练。

大型语言模型其他#土耳其语预训练 #多任务微调 #大规模语料

下载量 26

发布时间 : 8/11/2022

模型简介

该模型在XLM-RoBERTa-large模型基础上继续训练，专为土耳其语设计，适用于多种自然语言处理任务。

模型特点

大规模土耳其语训练

使用35GB土耳其语文本（44亿词符）进行训练，覆盖广泛的语言特征。

基于XLM-RoBERTa-large优化

在XLM-RoBERTa-large基础上继续训练，保持原有词表，优化土耳其语处理能力。

多任务性能优越

在POS标注、NER和COPA等任务上表现优异，超越同类土耳其语模型。

模型能力

词性标注（UPOS/XPOS）

命名实体识别（NER）

因果推理（COPA）

土耳其语文本理解

使用案例

自然语言处理

土耳其语文本标注

用于土耳其语文本的词性标注和命名实体识别。

在Universal Dependencies测试集上达到94.4%的NER准确率。

因果推理

用于土耳其语因果推理任务（COPA）。

在MT测试集上达到60.7%的准确率，优于BERTurk和XLM-R-large。

🚀 XLMR-MaCoCu-tr 土耳其语预训练语言模型

XLMR-MaCoCu-tr 是一个在土耳其语文本上进行训练的大型预训练语言模型。它基于 XLM-RoBERTa-large 模型继续训练而来，是 MaCoCu 项目的一部分，仅使用该项目期间爬取的数据。主要开发者是来自格罗宁根大学的 Rik van Noord。

🚀 快速开始

你可以按照以下步骤使用 XLMR-MaCoCu-tr 模型：

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # Tensorflow

✨ 主要特性

基于大模型继续训练：在 XLM-RoBERTa-large 模型基础上继续训练，继承了其优秀的语言理解能力。
使用特定项目数据：仅使用 MaCoCu 项目期间爬取的土耳其语数据进行训练，针对性更强。

📦 安装指南

使用该模型需要安装 transformers 库，你可以使用以下命令进行安装：

pip install transformers

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModel, TFAutoModel

tokenizer = AutoTokenizer.from_pretrained("RVN/XLMR-MaCoCu-tr")
model = AutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # PyTorch
model = TFAutoModel.from_pretrained("RVN/XLMR-MaCoCu-tr") # Tensorflow

📚 详细文档

训练数据

训练时，使用了单语土耳其语 MaCoCu 语料库中的所有土耳其语数据。经过数据去重后，共得到 35GB 的文本，相当于 44 亿个标记。

训练参数

XLMR-MaCoCu-tr 在 35GB 的土耳其语文本（相当于 44 亿个标记）上进行训练。训练步数为 70,000 步，批量大小为 1,024。它使用与原始 XLMR-large 模型相同的词汇表。

训练和微调流程

训练和微调流程的详细描述可在我们的 Github 仓库中查看。

基准测试性能

我们在 Universal Dependencies 项目的 XPOS、UPOS 和 NER 基准测试中测试了 XLMR-MaCoCu-tr 的性能。对于 COPA 任务，我们在机器翻译（MT）数据集上进行训练（详情见我们的 Github 仓库），并在类似的 MT 数据集以及 XCOPA 项目的人工翻译（HT）测试集上进行评估。我们将其性能与多语言模型 XLMR-base 和 XLMR-large，以及单语 BERTurk 模型进行了比较。关于微调流程的详细信息，你可以查看我们的 Github。

	UPOS	UPOS	XPOS	XPOS	NER	NER	COPA	COPA
	Dev	Test	Dev	Test	Dev	Test	Test (MT)	Test (HT)
XLM-R-base	89.0	89.0	90.4	90.6	92.8	92.6	56.0	53.2
XLM-R-large	89.4	89.3	90.8	90.7	94.1	94.1	52.1	50.5
BERTurk	88.2	88.4	89.7	89.6	92.6	92.6	57.0	56.4
XLMR-MaCoCu-tr	89.1	89.4	90.7	90.5	94.4	94.4	60.7	58.5

注：分数是三次运行的平均值，COPA 任务使用 10 次运行的结果。对于 POS/NER 任务，所有模型使用相同的超参数设置；对于 COPA 任务，我们在开发集上优化了每个模型的学习率。

📄 许可证

本项目采用 CC0-1.0 许可证。

🔗 致谢

本研究得到了 Google 的 TPU 研究云（TRC）的 Cloud TPU 支持。作者获得了欧盟 2014 - 2020 年连接欧洲设施 - CEF 电信的资助，资助协议编号为 INEA/CEF/ICT/A2020/2278341（MaCoCu）。

📖 引用

如果你使用此模型，请引用以下论文：

@inproceedings{non-etal-2022-macocu,
    title = "{M}a{C}o{C}u: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages",
    author = "Ba{\~n}{\'o}n, Marta  and
      Espl{\`a}-Gomis, Miquel  and
      Forcada, Mikel L.  and
      Garc{\'\i}a-Romero, Cristian  and
      Kuzman, Taja  and
      Ljube{\v{s}}i{\'c}, Nikola  and
      van Noord, Rik  and
      Sempere, Leopoldo Pla  and
      Ram{\'\i}rez-S{\'a}nchez, Gema  and
      Rupnik, Peter  and
      Suchomel, V{\'\i}t  and
      Toral, Antonio  and
      van der Werff, Tobias  and
      Zaragoza, Jaume",
    booktitle = "Proceedings of the 23rd Annual Conference of the European Association for Machine Translation",
    month = jun,
    year = "2022",
    address = "Ghent, Belgium",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2022.eamt-1.41",
    pages = "303--304"
}