T5-v1_1-xxl開源文本轉換模型 - 免費用純無監督策略實現文本轉換

首頁

T5 V1 1 Xxl

由google開發

T5 1.1是谷歌改進的文本到文本轉換Transformer模型，採用GEGLU激活函數和純無監督預訓練策略

大型語言模型

Transformers

英語開源協議:Apache-2.0 #文本到文本統一框架 #GEGLU激活函數 #純無監督預訓練

下載量 597.64k

發布時間 : 3/2/2022

模型概述

基於Transformer的統一文本處理框架，通過遷移學習在多種NLP任務上實現優異性能

模型特點

GEGLU激活函數

在前饋隱藏層使用GEGLU替代ReLU，提升模型表現力

純無監督預訓練

僅在C4數據集上進行無監督預訓練，不混合下游任務數據

參數分離策略

嵌入層與分類器層不共享參數，提升模型靈活性

規模化架構調整

採用更大的d_model和更小的num_heads/d_ff比例優化大模型性能

模型能力

文本生成

文本分類

問答系統

摘要生成

機器翻譯

文本改寫

使用案例

文本摘要

新聞摘要生成

將長篇文章壓縮為關鍵信息摘要

在CNN/Daily Mail數據集達到SOTA

智能問答

開放域問答

回答基於文本內容的自然語言問題

在Natural Questions等基準測試表現優異

文本分類

情感分析

判斷文本情感傾向（正面/負面）

在GLUE基準測試中競爭力強

🚀 Google的T5模型（版本1.1）

Google的T5模型是自然語言處理領域的重要成果。T5 Version 1.1在原模型基礎上進行了一系列改進，能更好地應用於文本處理任務，為自然語言處理研究和應用提供了強大支持。

🚀 快速開始

T5 Version 1.1 是在原始 T5 模型基礎上改進而來的版本。需要注意的是，T5 Version 1.1 僅在 C4 數據集上進行了預訓練，不包含任何有監督訓練。因此，該模型在下游任務中使用前必須進行微調。

✨ 主要特性

激活函數改進：前饋隱藏層採用 GEGLU 激活函數，而非 ReLU，詳情見此處。
預訓練時關閉 Dropout：預訓練階段關閉 Dropout 以提升質量，微調時應重新啟用。
僅在 C4 上預訓練：僅在 C4 數據集上進行預訓練，不混入下游任務數據。
無參數共享：嵌入層和分類器層之間不存在參數共享。
模型規模表示變化：用 "xl" 和 "xxl" 替代 "3B" 和 "11B"，模型形狀有所不同，d_model 更大，num_heads 和 d_ff 更小。

📚 詳細文檔

預訓練數據集

預訓練數據集為 C4。

其他社區檢查點

可在此處查看其他社區檢查點。

論文信息

論文標題：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
作者：Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

摘要

遷移學習是自然語言處理（NLP）中一種強大的技術，它先在數據豐富的任務上對模型進行預訓練，然後在下游任務上進行微調。遷移學習的有效性催生了多種方法、策略和實踐。在本文中，我們通過引入一個統一的框架，將每個語言問題轉化為文本到文本的格式，探索了NLP遷移學習技術的應用場景。我們的系統研究在數十個語言理解任務上比較了預訓練目標、架構、無標籤數據集、遷移方法和其他因素。通過將我們的研究見解與大規模數據以及新的“巨型清潔爬取語料庫”相結合，我們在許多涵蓋摘要、問答、文本分類等的基準測試中取得了最先進的成果。為了促進未來NLP遷移學習的研究，我們發佈了數據集、預訓練模型和代碼。

模型圖片