🚀 Muppet:通过预微调实现的大规模多任务表示
RoBERTa大型模型
Muppet是RoBERTa大型模型的大规模多任务预微调版本。该模型在 这篇论文 中被首次提出。与roberta-base相比,它在广泛的GLUE和问答任务中表现更优(具体细节可查看论文),在较小数据集上的提升尤为显著。
注意:由于兼容性问题,此检查点不包含预微调期间使用的分类/MRC头部,因此在某些数据集上的性能可能略低于论文中报告的结果。
📚 详细文档
模型描述
RoBERTa是一个以自监督方式在大量英文数据语料库上进行预训练的Transformer模型。这意味着它仅在原始文本上进行预训练,无需人工对文本进行任何标注(因此可以使用大量公开可用的数据),并通过自动流程从这些文本中生成输入和标签。
更准确地说,它是通过掩码语言模型(MLM)目标进行预训练的。对于一个输入句子,模型会随机掩码其中15%的单词,然后将整个掩码后的句子输入模型,并预测这些被掩码的单词。这与传统的循环神经网络(RNN)不同,RNN通常是逐个处理单词;也与像GPT这样的自回归模型不同,GPT会在内部掩码未来的标记。这种方式使模型能够学习句子的双向表示。
通过这种方式,模型学习到英语语言的内部表示,可用于提取对下游任务有用的特征。例如,如果您有一个带标签的句子数据集,可以使用BERT模型生成的特征作为输入,训练一个标准的分类器。
预期用途和局限性
您可以使用原始模型进行掩码语言建模,但它主要用于在下游任务上进行微调。请查看 模型中心,以查找针对您感兴趣的任务进行微调的版本。
请注意,此模型主要旨在针对使用整个句子(可能是掩码后的句子)进行决策的任务进行微调,例如序列分类、标记分类或问答任务。对于文本生成等任务,您应该考虑使用像GPT2这样的模型。
🔧 技术细节
评估结果
在下游任务上进行微调时,该模型取得了以下结果:
Glue测试结果:
模型 |
MNLI |
QQP |
QNLI |
SST - 2 |
CoLA |
STS - B |
MRPC |
RTE |
SQuAD |
Roberta - large |
90.2 |
92.2 |
94.7 |
96.4 |
63.6 |
91.2 |
90.9 |
88.1 |
88.7 |
MUPPET Roberta - large |
90.8 |
92.2 |
94.9 |
97.4 |
- |
- |
91.4 |
92.8 |
89.4 |
BibTeX条目和引用信息
@article{DBLP:journals/corr/abs-2101-11038,
author = {Armen Aghajanyan and
Anchit Gupta and
Akshat Shrivastava and
Xilun Chen and
Luke Zettlemoyer and
Sonal Gupta},
title = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
journal = {CoRR},
volume = {abs/2101.11038},
year = {2021},
url = {https://arxiv.org/abs/2101.11038},
archivePrefix = {arXiv},
eprint = {2101.11038},
timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 许可证
本项目采用MIT许可证。
属性 |
详情 |
模型类型 |
RoBERTa大型模型的大规模多任务预微调版本 |
训练数据 |
bookcorpus、wikipedia |
⚠️ 重要提示
由于兼容性问题,此检查点不包含预微调期间使用的分类/MRC头部,因此在某些数据集上的性能可能略低于论文中报告的结果。
💡 使用建议
此模型主要用于在下游任务上进行微调。请查看 模型中心,以查找针对您感兴趣的任务进行微调的版本。对于文本生成等任务,建议考虑使用像GPT2这样的模型。