t5-v1_1-base開源文本轉換模型 - 免費實現高效文本到文本轉換

首頁

T5 V1 1 Base

由google開發

T5 1.1是谷歌改進的文本到文本轉換模型，採用GEGLU激活函數和優化架構，專注於無監督預訓練

大型語言模型英語開源協議:Apache-2.0 #文本到文本統一框架 #GEGLU激活函數 #無監督預訓練

下載量 150.73k

發布時間 : 3/2/2022

模型概述

改進版T5模型，通過架構優化提升遷移學習性能，需微調後用於下游NLP任務

模型特點

GEGLU激活函數

前饋隱藏層採用GEGLU替代ReLU，提升模型表達能力

純無監督預訓練

僅使用C4數據集進行預訓練，不混合下游任務數據

參數共享優化

取消嵌入層與分類器層的參數共享，提升模型靈活性

結構優化

調整xl/xxl規格的維度配置，增大d_model並減少注意力頭數

模型能力

文本生成

文本分類

問答系統

摘要生成

機器翻譯

使用案例

文本生成

內容摘要

對長文檔生成簡潔摘要

在CNN/Daily Mail數據集達到SOTA

問答系統

開放域問答

回答基於文本知識的自然語言問題

在Natural Questions基準表現優異

🚀 [Google的T5模型（版本1.1）]

Google的T5模型（版本1.1）是自然語言處理領域的先進模型，通過改進架構和預訓練方式，在多種語言任務中展現出卓越性能。

🚀 快速開始

本模型需先進行微調才能在下游任務中使用。你可以參考相關代碼和文檔進行模型的微調操作。

✨ 主要特性

激活函數改進：前饋隱藏層採用GEGLU激活函數，而非ReLU，詳情見此處。
預訓練時關閉Dropout：預訓練階段關閉Dropout以提升質量，微調時需重新開啟。
僅在C4上預訓練：僅在C4數據集上進行預訓練，不混入下游任務。
無參數共享：嵌入層和分類器層之間無參數共享。
模型規模調整：用“xl”和“xxl”替代“3B”和“11B”，模型形狀有所不同，d_model更大，num_heads和d_ff更小。

📚 詳細文檔

版本1.1說明

T5 Version 1.1相較於原始T5模型有如下改進：

前饋隱藏層使用GEGLU激活函數，而非ReLU，參考這裡。
預訓練時關閉Dropout（提升質量），微調時應重新啟用。
僅在C4上進行預訓練，不混入下游任務。
嵌入層和分類器層之間無參數共享。
“xl”和“xxl”替代“3B”和“11B”，模型形狀稍有不同，d_model更大，num_heads和d_ff更小。

注意：T5 Version 1.1僅在C4上進行預訓練，未進行任何監督訓練。因此，該模型在下游任務中使用前必須進行微調。

預訓練數據集

其他社區檢查點

點擊查看

論文

探索統一文本到文本轉換器的遷移學習極限

作者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

遷移學習是自然語言處理（NLP）中的強大技術，即先在數據豐富的任務上預訓練模型，再在下游任務上進行微調。遷移學習的有效性催生了多種方法、方法論和實踐。本文通過引入統一框架，將每個語言問題轉化為文本到文本的格式，探索NLP遷移學習技術的格局。我們的系統研究比較了數十種語言理解任務的預訓練目標、架構、無標籤數據集、遷移方法和其他因素。通過將探索所得的見解與規模以及新的“巨型清潔爬取語料庫”相結合，我們在涵蓋摘要、問答、文本分類等多個基準測試中取得了最先進的成果。為了促進未來NLP遷移學習的研究，我們發佈了數據集、預訓練模型和代碼。

模型圖片