🚀 Muppet:預微調的大規模多任務表示 - RoBERTa基礎模型
Muppet是RoBERTa基礎模型的大規模多任務預微調版本,它能在多種GLUE和問答任務中提升性能,尤其在小數據集上效果顯著。該模型的詳細信息可參考 相關論文。
🚀 快速開始
本項目提供了一個經過預微調的RoBERTa基礎模型,可用於多種自然語言處理任務。你可以在 模型中心 查找針對特定任務微調後的版本。
✨ 主要特性
- 多任務預微調:在多種GLUE和問答任務中提升了性能,尤其在小數據集上效果顯著。
- 雙向表示學習:通過掩碼語言建模(MLM)目標學習句子的雙向表示。
- 特徵提取:學習英語語言的內部表示,可用於下游任務的特徵提取。
📚 詳細文檔
模型描述
RoBERTa是一個基於自監督學習方式在大量英語語料庫上預訓練的Transformer模型。它僅在原始文本上進行預訓練,無需人工標註,通過自動過程從這些文本中生成輸入和標籤。
具體來說,它以掩碼語言建模(MLM)為目標進行預訓練。對於一個句子,模型會隨機掩碼輸入中15%的單詞,然後將整個掩碼後的句子輸入模型,並預測被掩碼的單詞。這與傳統的循環神經網絡(RNN)不同,RNN通常逐個處理單詞,也與像GPT這樣的自迴歸模型不同,GPT會在內部掩碼未來的標記。這種方式使模型能夠學習句子的雙向表示。
通過這種方式,模型學習到英語語言的內部表示,可用於提取對下游任務有用的特徵。例如,如果你有一個標註好的句子數據集,可以使用BERT模型生成的特徵作為輸入來訓練一個標準分類器。
預期用途和限制
你可以使用原始模型進行掩碼語言建模,但它主要用於在下游任務上進行微調。你可以在 模型中心 查找針對你感興趣的任務進行微調後的版本。
需要注意的是,該模型主要用於需要使用整個句子(可能經過掩碼)來做決策的任務,如序列分類、標記分類或問答。對於文本生成等任務,你應該考慮像GPT2這樣的模型。
評估結果
在下游任務上進行微調時,該模型取得了以下結果:
模型 |
MNLI |
QQP |
QNLI |
SST - 2 |
CoLA |
STS - B |
MRPC |
RTE |
SQuAD |
Roberta - base |
87.6 |
91.9 |
92.8 |
94.8 |
63.6 |
91.2 |
90.2 |
78.7 |
82.6 |
MUPPET Roberta - base |
88.1 |
91.9 |
93.3 |
96.7 |
- |
- |
91.7 |
87.8 |
86.6 |
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-2101-11038,
author = {Armen Aghajanyan and
Anchit Gupta and
Akshat Shrivastava and
Xilun Chen and
Luke Zettlemoyer and
Sonal Gupta},
title = {Muppet: Massive Multi-task Representations with Pre-Finetuning},
journal = {CoRR},
volume = {abs/2101.11038},
year = {2021},
url = {https://arxiv.org/abs/2101.11038},
archivePrefix = {arXiv},
eprint = {2101.11038},
timestamp = {Sun, 31 Jan 2021 17:23:50 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2101-11038.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
注意事項
由於兼容性問題,此檢查點不包含預微調期間使用的分類/MRC頭,因此在某些數據集上的性能可能略低於論文中報告的性能。
📄 許可證
本項目採用MIT許可證。
屬性 |
詳情 |
模型類型 |
RoBERTa基礎模型的大規模多任務預微調版本 |
訓練數據 |
BookCorpus、Wikipedia |
⚠️ 重要提示
此檢查點不包含預微調期間使用的分類/MRC頭,因此在某些數據集上的性能可能略低於論文中報告的性能。
💡 使用建議
該模型主要用於需要使用整個句子(可能經過掩碼)來做決策的任務,如序列分類、標記分類或問答。對於文本生成等任務,建議考慮像GPT2這樣的模型。