🚀 T5 11B 模型卡片
T5 11B 是一款具有 110 億參數的強大語言模型,它將所有自然語言處理任務統一為文本到文本的格式,可應用於機器翻譯、文檔摘要、問答等多種任務。
🚀 快速開始
舊版本注意事項
在 transformers
v3.5.0 之前,由於 t5-11b
模型體積巨大,需要特殊處理。如果使用的是 transformers <= v3.4.0
版本,應將 use_cdn
標誌設置為 False
來加載 t5-11b
,示例代碼如下:
t5 = transformers.T5ForConditionalGeneration.from_pretrained('t5-11b', use_cdn = False)
內存問題解決辦法
單個 GPU 很可能沒有足夠的內存來加載該模型,因為僅權重就超過 40 GB。可以採用以下方法解決:
- 模型並行:如 此 PR 中所述,使用模型並行來解決此問題。
- DeepSpeed 的 ZeRO - Offload:如 此帖子 中所述,採用 DeepSpeed 的 ZeRO - Offload 方法。
更多信息請參考 Hugging Face T5 文檔 和模型開發者創建的 Colab 筆記本。
✨ 主要特性
- 統一文本到文本格式:將所有 NLP 任務統一為文本到文本的格式,可使用相同的模型、損失函數和超參數處理各種任務。
- 多語言支持:支持英語、法語、羅馬尼亞語和德語。
- 多任務處理能力:可應用於機器翻譯、文檔摘要、問答、分類等多種任務,甚至可以應用於迴歸任務。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
模型描述
文本到文本轉移變換器(T5)的開發者在 博客文章 中寫道:
通過 T5,我們提出將所有 NLP 任務重構為統一的文本到文本格式,其中輸入和輸出始終是文本字符串,這與只能輸出類別標籤或輸入片段的 BERT 風格模型形成對比。我們的文本到文本框架允許我們在任何 NLP 任務上使用相同的模型、損失函數和超參數。
T5 - 11B 是具有 110 億參數的檢查點。
- 開發者:Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。詳見 相關論文 和 GitHub 倉庫。
- 模型類型:語言模型
- 支持語言(NLP):英語、法語、羅馬尼亞語、德語
- 許可證:Apache 2.0
- 相關模型:所有 T5 檢查點
- 更多信息資源:
用途
直接使用和下游使用
開發者在 博客文章 中表示,該模型:
我們的文本到文本框架允許我們在任何 NLP 任務上使用相同的模型、損失函數和超參數,包括機器翻譯、文檔摘要、問答和分類任務(如情感分析)。我們甚至可以通過訓練 T5 預測數字的字符串表示而不是數字本身,將其應用於迴歸任務。
更多詳情請參考 博客文章 和 研究論文。
訓練詳情
訓練數據
該模型在 巨型清潔爬取語料庫(C4) 上進行預訓練,該語料庫與 T5 在同一 研究論文 的背景下開發和發佈。
該模型在無監督(1)和有監督任務(2)的多任務混合上進行預訓練。以下是用於(1)和(2)的數據集:
- 用於無監督去噪目標的數據集:
- 用於有監督文本到文本語言建模目標的數據集:
- 句子可接受性判斷:
- 情感分析:
- 釋義/句子相似度:
- 自然語言推理:
- 句子完成:
- 詞義消歧:
- 問答:
訓練過程
模型開發者在 摘要 中寫道:
在本文中,我們通過引入一個統一的框架,將每個語言問題轉換為文本到文本的格式,探索了 NLP 遷移學習技術的領域。我們的系統研究比較了數十個語言理解任務上的預訓練目標、架構、無標籤數據集、遷移方法和其他因素。
所引入的框架,即 T5 框架,涉及將論文中研究的方法結合起來的訓練過程。更多詳情請參考 研究論文。
評估
測試數據、因素和指標
開發者在 24 個任務上對模型進行了評估,完整詳情請參考 研究論文。
結果
T5 - 11B 的完整結果請參考 研究論文 中的表 14。
環境影響
可以使用 Lacoste 等人(2019) 提出的 機器學習影響計算器 來估算碳排放。
- 硬件類型:Google Cloud TPU Pods
- 使用時長:更多信息待補充
- 雲服務提供商:GCP
- 計算區域:更多信息待補充
- 碳排放:更多信息待補充
引用
BibTeX
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
模型卡片作者
此模型卡片由 Hugging Face 團隊撰寫。
🔧 技術細節
文檔未提供具體技術實現細節,故跳過此章節。
📄 許可證
該模型使用 Apache 2.0 許可證。