t5-large-lm-adapt開源文本生成模型 - 經額外訓練提升提示調優能力

首頁

T5 Large Lm Adapt

由google開發

T5版本1.1的LM適配版是基於T5架構改進的文本生成模型，通過語言建模目標額外訓練，提升了提示調優能力。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #文本到文本轉換 #GEGLU激活函數 #無監督預訓練

下載量 501

發布時間 : 3/2/2022

模型概述

該模型是T5版本1.1的改進版，專門針對語言建模目標進行適配訓練，適用於多種文本生成和理解任務。

模型特點

GEGLU激活函數

在feed-forward隱藏層中使用GEGLU激活函數替代ReLU，提升模型性能。

無Dropout預訓練

預訓練階段關閉Dropout以提高質量，微調時需重新啟用。

純C4數據集預訓練

僅在C4數據集上預訓練，未混合下游任務數據，保持訓練數據純淨。

參數分離

嵌入層與分類器層之間無參數共享，增強模型靈活性。

改進的模型結構

採用更大的`d_model`和更小的`num_heads`與`d_ff`，優化模型性能。

模型能力

文本生成

文本理解

問答系統

摘要生成

文本分類

使用案例

自然語言處理

提示調優

通過語言建模目標的額外訓練，模型在提示調優任務中表現更優。

提升提示調優效果

文本生成

適用於生成連貫、上下文相關的文本。

生成高質量文本

問答系統

可用於構建問答系統，回答基於文本的問題。

準確回答用戶問題

🚀 [Google的T5版本1.1 - LM適配版]

Google的T5版本1.1 - LM適配版是在原T5模型基礎上進行改進的版本，在預訓練和模型結構上有諸多優化，能更好地用於提示調優等自然語言處理任務。

🚀 快速開始

此部分將為你快速介紹Google的T5版本1.1 - LM適配版的相關信息。

✨ 主要特性

與原T5模型相比的改進

T5版本1.1 - LM適配版相較於原 T5模型有以下改進：
- 前饋隱藏層使用GEGLU激活函數，而非ReLU - 詳見此處。
- 預訓練時關閉了Dropout（提升了質量）。微調時應重新啟用Dropout。
- 僅在C4上進行預訓練，不混合下游任務。
- 嵌入層和分類器層之間不共享參數。
- “xl”和“xxl”取代了“3B”和“11B”。模型形狀略有不同 - 更大的 d_model，更小的 num_heads 和 d_ff。

預訓練目標

該模型在去噪和語言建模目標上進行了預訓練。具體而言，此檢查點從 T5版本1.1 - 大模型初始化，然後在 T5論文中討論的語言建模目標上額外訓練100K步。這種適配改進了模型用於提示調優的能力。

流行的微調版本

T5版本1.1 - LM適配版 模型的一個流行微調版本是 BigScience的T0pp。

📚 詳細文檔

預訓練數據集

其他社區檢查點

此處

論文

使用統一的文本到文本變換器探索遷移學習的極限

作者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

遷移學習是一種強大的自然語言處理（NLP）技術，即模型先在數據豐富的任務上進行預訓練，然後在下游任務上進行微調。遷移學習的有效性催生了多種方法、方法論和實踐。在本文中，我們通過引入一個統一的框架，將每個語言問題轉換為文本到文本的格式，探索了NLP遷移學習技術的領域。我們的系統研究在數十個語言理解任務上比較了預訓練目標、架構、無標籤數據集、遷移方法和其他因素。通過將我們的探索見解與規模以及我們新的“巨大幹淨爬取語料庫”相結合，我們在許多涵蓋摘要、問答、文本分類等的基準測試中取得了最先進的結果。為了促進未來NLP遷移學習的工作，我們發佈了我們的數據集、預訓練模型和代碼。

模型圖片