🚀 Muppet:通過預微調實現的大規模多任務表示
RoBERTa大型模型
Muppet是RoBERTa大型模型的大規模多任務預微調版本。該模型在 這篇論文 中被首次提出。與roberta-base相比,它在廣泛的GLUE和問答任務中表現更優(具體細節可查看論文),在較小數據集上的提升尤為顯著。
注意:由於兼容性問題,此檢查點不包含預微調期間使用的分類/MRC頭部,因此在某些數據集上的性能可能略低於論文中報告的結果。
📚 詳細文檔
模型描述
RoBERTa是一個以自監督方式在大量英文數據語料庫上進行預訓練的Transformer模型。這意味著它僅在原始文本上進行預訓練,無需人工對文本進行任何標註(因此可以使用大量公開可用的數據),並通過自動流程從這些文本中生成輸入和標籤。
更準確地說,它是通過掩碼語言模型(MLM)目標進行預訓練的。對於一個輸入句子,模型會隨機掩碼其中15%的單詞,然後將整個掩碼後的句子輸入模型,並預測這些被掩碼的單詞。這與傳統的循環神經網絡(RNN)不同,RNN通常是逐個處理單詞;也與像GPT這樣的自迴歸模型不同,GPT會在內部掩碼未來的標記。這種方式使模型能夠學習句子的雙向表示。
通過這種方式,模型學習到英語語言的內部表示,可用於提取對下游任務有用的特徵。例如,如果您有一個帶標籤的句子數據集,可以使用BERT模型生成的特徵作為輸入,訓練一個標準的分類器。
預期用途和侷限性
您可以使用原始模型進行掩碼語言建模,但它主要用於在下游任務上進行微調。請查看 模型中心,以查找針對您感興趣的任務進行微調的版本。
請注意,此模型主要旨在針對使用整個句子(可能是掩碼後的句子)進行決策的任務進行微調,例如序列分類、標記分類或問答任務。對於文本生成等任務,您應該考慮使用像GPT2這樣的模型。
🔧 技術細節
評估結果
在下游任務上進行微調時,該模型取得了以下結果:
Glue測試結果:
模型 |
MNLI |
QQP |
QNLI |
SST - 2 |
CoLA |
STS - B |
MRPC |
RTE |
SQuAD |
Roberta - large |
90.2 |
92.2 |
94.7 |
96.4 |
63.6 |
91.2 |
90.9 |
88.1 |
88.7 |
MUPPET Roberta - large |
90.8 |
92.2 |
94.9 |
97.4 |
- |
- |
91.4 |
92.8 |
89.4 |
BibTeX條目和引用信息
@article{DBLP:journals/corr/abs-2101-11038,
author = {Armen Aghajanyan and
Anchit Gupta and
Akshat Shrivastava and
Xilun Chen and
Luke Zettlemoyer and
Sonal Gupta},
title = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
journal = {CoRR},
volume = {abs/2101.11038},
year = {2021},
url = {https://arxiv.org/abs/2101.11038},
archivePrefix = {arXiv},
eprint = {2101.11038},
timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 許可證
本項目採用MIT許可證。
屬性 |
詳情 |
模型類型 |
RoBERTa大型模型的大規模多任務預微調版本 |
訓練數據 |
bookcorpus、wikipedia |
⚠️ 重要提示
由於兼容性問題,此檢查點不包含預微調期間使用的分類/MRC頭部,因此在某些數據集上的性能可能略低於論文中報告的結果。
💡 使用建議
此模型主要用於在下游任務上進行微調。請查看 模型中心,以查找針對您感興趣的任務進行微調的版本。對於文本生成等任務,建議考慮使用像GPT2這樣的模型。