🚀 Muppet:预微调的大规模多任务表示 - RoBERTa基础模型
Muppet是RoBERTa基础模型的大规模多任务预微调版本,它能在多种GLUE和问答任务中提升性能,尤其在小数据集上效果显著。该模型的详细信息可参考 相关论文。
🚀 快速开始
本项目提供了一个经过预微调的RoBERTa基础模型,可用于多种自然语言处理任务。你可以在 模型中心 查找针对特定任务微调后的版本。
✨ 主要特性
- 多任务预微调:在多种GLUE和问答任务中提升了性能,尤其在小数据集上效果显著。
- 双向表示学习:通过掩码语言建模(MLM)目标学习句子的双向表示。
- 特征提取:学习英语语言的内部表示,可用于下游任务的特征提取。
📚 详细文档
模型描述
RoBERTa是一个基于自监督学习方式在大量英语语料库上预训练的Transformer模型。它仅在原始文本上进行预训练,无需人工标注,通过自动过程从这些文本中生成输入和标签。
具体来说,它以掩码语言建模(MLM)为目标进行预训练。对于一个句子,模型会随机掩码输入中15%的单词,然后将整个掩码后的句子输入模型,并预测被掩码的单词。这与传统的循环神经网络(RNN)不同,RNN通常逐个处理单词,也与像GPT这样的自回归模型不同,GPT会在内部掩码未来的标记。这种方式使模型能够学习句子的双向表示。
通过这种方式,模型学习到英语语言的内部表示,可用于提取对下游任务有用的特征。例如,如果你有一个标注好的句子数据集,可以使用BERT模型生成的特征作为输入来训练一个标准分类器。
预期用途和限制
你可以使用原始模型进行掩码语言建模,但它主要用于在下游任务上进行微调。你可以在 模型中心 查找针对你感兴趣的任务进行微调后的版本。
需要注意的是,该模型主要用于需要使用整个句子(可能经过掩码)来做决策的任务,如序列分类、标记分类或问答。对于文本生成等任务,你应该考虑像GPT2这样的模型。
评估结果
在下游任务上进行微调时,该模型取得了以下结果:
模型 |
MNLI |
QQP |
QNLI |
SST - 2 |
CoLA |
STS - B |
MRPC |
RTE |
SQuAD |
Roberta - base |
87.6 |
91.9 |
92.8 |
94.8 |
63.6 |
91.2 |
90.2 |
78.7 |
82.6 |
MUPPET Roberta - base |
88.1 |
91.9 |
93.3 |
96.7 |
- |
- |
91.7 |
87.8 |
86.6 |
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-2101-11038,
author = {Armen Aghajanyan and
Anchit Gupta and
Akshat Shrivastava and
Xilun Chen and
Luke Zettlemoyer and
Sonal Gupta},
title = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
journal = {CoRR},
volume = {abs/2101.11038},
year = {2021},
url = {https://arxiv.org/abs/2101.11038},
archivePrefix = {arXiv},
eprint = {2101.11038},
timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
注意事项
由于兼容性问题,此检查点不包含预微调期间使用的分类/MRC头,因此在某些数据集上的性能可能略低于论文中报告的性能。
📄 许可证
本项目采用MIT许可证。
属性 |
详情 |
模型类型 |
RoBERTa基础模型的大规模多任务预微调版本 |
训练数据 |
BookCorpus、Wikipedia |
⚠️ 重要提示
此检查点不包含预微调期间使用的分类/MRC头,因此在某些数据集上的性能可能略低于论文中报告的性能。
💡 使用建议
该模型主要用于需要使用整个句子(可能经过掩码)来做决策的任务,如序列分类、标记分类或问答。对于文本生成等任务,建议考虑像GPT2这样的模型。