t5-base-lm-adapt開源文本生成模型 - 優化提效，實現精彩文本創作

首頁

T5 Base Lm Adapt

由google開發

T5 V1.1語言模型適配版是基於T5架構改進的文本生成模型，通過GEGLU激活函數和語言建模目標優化，顯著提升提示調優效果。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #GEGLU激活函數 #去噪與語言建模聯合預訓練 #零樣本提示調優優化

下載量 1,062

發布時間 : 3/2/2022

模型概述

該模型是T5基礎版的改進版本，專注於文本到文本轉換任務，通過架構優化和訓練目標調整提升語言建模能力。

模型特點

GEGLU激活函數

前饋隱藏層採用GEGLU激活函數替代原始ReLU，提升模型表達能力

無Dropout預訓練

預訓練階段關閉Dropout機制，提高模型質量，微調時需重新啟用

雙目標訓練

同時採用去噪和語言建模目標進行預訓練，增強語言理解能力

參數優化

調整模型維度結構，增大d_model維度，減少注意力頭和前饋層維度

模型能力

文本生成

文本轉換

語言建模

提示調優

遷移學習

使用案例

文本生成

自動摘要

將長文本壓縮為簡潔摘要

在摘要生成基準測試中取得先進成果

問答系統

基於文本內容回答問題

在多項問答任務中表現優異

文本轉換

文本分類

將輸入文本分類到預定義類別

在文本分類基準中達到先進水平

語言翻譯

實現語言間的文本轉換

支持多種語言翻譯任務

🚀 [Google的T5（版本1.1 - LM自適應）]

Google的T5 版本1.1 - LM自適應模型，對原有的T5模型進行了多方面的改進，在自然語言處理任務中表現更優，適用於多種下游任務的微調。

🚀 快速開始

本模型基於Google的T5架構，版本1.1 - LM自適應，在預訓練和模型結構上有諸多改進，可用於多種自然語言處理任務。

✨ 主要特性

T5版本1.1 - LM自適應相較於原始的 T5模型具有以下改進：

前饋隱藏層使用GEGLU激活函數，而非ReLU - 詳見此處。
預訓練時關閉了Dropout（提升了質量）。微調時應重新啟用Dropout。
僅在C4數據集上進行預訓練，未混入下游任務。
嵌入層和分類器層之間不共享參數。
“xl” 和 “xxl” 取代了 “3B” 和 “11B”。模型形狀略有不同 - 更大的 d_model，更小的 num_heads 和 d_ff。

該模型在去噪和語言建模目標上進行了預訓練。更具體地說，此檢查點從 T5版本1.1 - 基礎版初始化，然後在 T5論文中討論的語言建模目標上額外訓練了100K步。這種自適應改進了模型用於提示調優的能力。

注意：T5版本1.1 - LM自適應 模型的一個流行微調版本是 BigScience的T0pp。

📚 詳細文檔

預訓練數據集

其他社區檢查點

點擊查看

作者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

遷移學習是一種強大的自然語言處理（NLP）技術，即先在數據豐富的任務上對模型進行預訓練，然後在下游任務上進行微調。遷移學習的有效性催生了多種方法、方法論和實踐。在本文中，我們通過引入一個統一的框架來探索NLP遷移學習技術的格局，該框架將每個語言問題轉換為文本到文本的格式。我們的系統研究在數十個語言理解任務上比較了預訓練目標、架構、無標籤數據集、遷移方法和其他因素。通過將我們的探索見解與規模和新的 “巨大清潔爬取語料庫” 相結合，我們在涵蓋摘要、問答、文本分類等多個基準測試中取得了最先進的結果。為了促進未來NLP遷移學習的研究，我們發佈了數據集、預訓練模型和代碼。