t5-v1_1-large開源文本轉換模型 - 優化架構實現無監督預訓練

首頁

T5 V1 1 Large

由google開發

T5 1.1是谷歌改進的文本到文本轉換模型，採用GEGLU激活函數並優化架構，專注於無監督預訓練

大型語言模型英語開源協議:Apache-2.0 #文本到文本統一架構 #GEGLU激活函數 #無監督預訓練

下載量 111.29k

發布時間 : 3/2/2022

模型概述

基於Transformer的統一文本到文本轉換框架，通過遷移學習實現多種NLP任務，需在下游任務微調後使用

模型特點

GEGLU激活函數

前饋網絡使用GEGLU替代ReLU，提升模型表達能力

無監督預訓練

僅在C4數據集進行純無監督預訓練，避免任務數據汙染

參數共享優化

取消嵌入層與分類器層的參數共享，提升模型靈活性

架構調整

增大模型維度同時減少注意力頭數，平衡計算效率與表現力

模型能力

文本生成

文本分類

問答系統

摘要生成

機器翻譯（需微調）

使用案例

文本生成

內容創作輔助

生成文章草稿或續寫文本

需微調後評估效果

信息提取

問答系統

構建開放域問答機器人

在SQuAD等基準測試表現優異

🚀 [Google的T5模型 1.1版本]

Google的T5模型1.1版本在自然語言處理領域有著重要的應用價值，它在原T5模型基礎上進行了多項改進，能更好地處理文本到文本的轉換任務，適用於如文本摘要、問答系統等多種下游任務。

🚀 快速開始

本部分將為你介紹Google的T5模型1.1版本的相關信息，包括其改進點、預訓練數據集、社區檢查點等內容。

✨ 主要特性

版本1.1改進點

T5 1.1版本與原始T5模型相比，有如下改進：
- 前饋隱藏層採用GEGLU激活函數，而非ReLU，詳情見此處。
- 預訓練時關閉了Dropout（提升了質量），微調時應重新啟用。
- 僅在C4上進行預訓練，未混入下游任務數據。
- 嵌入層和分類器層之間不共享參數。
- “xl”和“xxl”取代了“3B”和“11B”，模型形狀有所不同，d_model更大，num_heads和d_ff更小。

注意事項

T5 1.1版本僅在C4上進行了預訓練，未進行任何有監督訓練。因此，該模型在下游任務中使用前必須進行微調。

預訓練數據集

其他社區檢查點

點擊查看

作者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

📚 詳細文檔

摘要

遷移學習是自然語言處理（NLP）中的一種強大技術，即模型先在數據豐富的任務上進行預訓練，然後在下游任務上進行微調。遷移學習的有效性催生了多種方法、方法論和實踐。在本文中，我們通過引入一個統一的框架，將每個語言問題轉換為文本到文本的格式，探索了NLP遷移學習技術的領域。我們的系統研究比較了數十個語言理解任務的預訓練目標、架構、無標籤數據集、遷移方法和其他因素。通過將我們的探索見解與規模以及新的“巨型清潔爬取語料庫”相結合，我們在涵蓋摘要、問答、文本分類等多個基準測試中取得了最先進的成果。為了促進未來NLP遷移學習的研究，我們發佈了數據集、預訓練模型和代碼。