muppet - roberta - large开源模型 - 在GLUE和问答任务表现好，小数据集效果提升显著

首页

Muppet Roberta Large

由 facebook 开发

RoBERTa大型模型的大规模多任务预微调版本，在GLUE和问答任务上表现优异，尤其在小数据集上提升显著。

大型语言模型

Transformers

英语开源协议:MIT #多任务预微调 #GLUE性能提升 #小数据集优化

下载量 26

发布时间 : 3/2/2022

模型简介

该模型是基于大规模英文语料库通过自监督方式预训练的transformers模型，采用掩码语言建模（MLM）目标进行预训练，学习英语语言的双向表征，适用于序列分类、标记分类或问答等任务。

模型特点

大规模多任务预微调

通过预微调在多任务上优化模型，提升在下游任务的表现，尤其在小数据集上效果显著。

双向表征学习

采用掩码语言建模目标，学习句子的双向表征，适用于需要完整句子信息的任务。

广泛的下游任务适用性

适用于序列分类、标记分类、问答等多种自然语言处理任务。

模型能力

掩码语言建模

序列分类

标记分类

问答

使用案例

自然语言处理

文本分类

对文本进行情感分析、主题分类等任务。

在SST-2数据集上达到97.4的准确率。

问答系统

构建自动问答系统，回答基于给定文本的问题。

在SQuAD数据集上达到89.4的F1分数。

自然语言推理

判断两个句子之间的逻辑关系（蕴含、矛盾或中立）。

在MNLI数据集上达到90.8的准确率。

🚀 Muppet：通过预微调实现的大规模多任务表示

RoBERTa大型模型

Muppet是RoBERTa大型模型的大规模多任务预微调版本。该模型在这篇论文中被首次提出。与roberta-base相比，它在广泛的GLUE和问答任务中表现更优（具体细节可查看论文），在较小数据集上的提升尤为显著。

注意：由于兼容性问题，此检查点不包含预微调期间使用的分类/MRC头部，因此在某些数据集上的性能可能略低于论文中报告的结果。

📚 详细文档

模型描述

RoBERTa是一个以自监督方式在大量英文数据语料库上进行预训练的Transformer模型。这意味着它仅在原始文本上进行预训练，无需人工对文本进行任何标注（因此可以使用大量公开可用的数据），并通过自动流程从这些文本中生成输入和标签。

更准确地说，它是通过掩码语言模型（MLM）目标进行预训练的。对于一个输入句子，模型会随机掩码其中15%的单词，然后将整个掩码后的句子输入模型，并预测这些被掩码的单词。这与传统的循环神经网络（RNN）不同，RNN通常是逐个处理单词；也与像GPT这样的自回归模型不同，GPT会在内部掩码未来的标记。这种方式使模型能够学习句子的双向表示。

通过这种方式，模型学习到英语语言的内部表示，可用于提取对下游任务有用的特征。例如，如果您有一个带标签的句子数据集，可以使用BERT模型生成的特征作为输入，训练一个标准的分类器。

预期用途和局限性

您可以使用原始模型进行掩码语言建模，但它主要用于在下游任务上进行微调。请查看模型中心，以查找针对您感兴趣的任务进行微调的版本。

请注意，此模型主要旨在针对使用整个句子（可能是掩码后的句子）进行决策的任务进行微调，例如序列分类、标记分类或问答任务。对于文本生成等任务，您应该考虑使用像GPT2这样的模型。

🔧 技术细节

评估结果

在下游任务上进行微调时，该模型取得了以下结果：

Glue测试结果：

模型	MNLI	QQP	QNLI	SST - 2	CoLA	STS - B	MRPC	RTE	SQuAD
Roberta - large	90.2	92.2	94.7	96.4	63.6	91.2	90.9	88.1	88.7
MUPPET Roberta - large	90.8	92.2	94.9	97.4	-	-	91.4	92.8	89.4

BibTeX条目和引用信息

@article{DBLP:journals/corr/abs-2101-11038,
  author    = {Armen Aghajanyan and
               Anchit Gupta and
               Akshat Shrivastava and
               Xilun Chen and
               Luke Zettlemoyer and
               Sonal Gupta},
  title     = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
  journal   = {CoRR},
  volume    = {abs/2101.11038},
  year      = {2021},
  url       = {https://arxiv.org/abs/2101.11038},
  archivePrefix = {arXiv},
  eprint    = {2101.11038},
  timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}