🚀 T5大模型卡片
T5(Text-To-Text Transfer Transformer)是一個將所有自然語言處理任務統一為文本到文本格式的模型,T5-Large是其擁有7.7億參數的檢查點,可用於機器翻譯、文檔摘要、問答等多種任務。
🚀 快速開始
使用以下代碼開始使用該模型:
from transformers import T5Tokenizer, T5Model
tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")
input_ids = tokenizer(
"Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state
更多示例請參閱Hugging Face T5文檔和模型開發者創建的Colab Notebook。
✨ 主要特性
- 統一文本格式:T5將所有NLP任務重構為統一的文本到文本格式,輸入和輸出始終是文本字符串,可對任何NLP任務使用相同的模型、損失函數和超參數。
- 多語言支持:支持英語、法語、羅馬尼亞語和德語。
- 多任務處理:可用於機器翻譯、文檔摘要、問答、分類任務(如情感分析),甚至可以應用於迴歸任務。
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
from transformers import T5Tokenizer, T5Model
tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")
input_ids = tokenizer(
"Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state
高級用法
文檔未提及高級用法代碼示例,故跳過該部分。
📚 詳細文檔
模型詳情
模型描述
文本到文本轉移變換器(T5)的開發者在博客文章中寫道:
通過T5,我們提出將所有NLP任務重構為統一的文本到文本格式,其中輸入和輸出始終是文本字符串,這與只能輸出類標籤或輸入跨度的BERT風格模型形成對比。我們的文本到文本框架允許我們對任何NLP任務使用相同的模型、損失函數和超參數。
T5-Large是擁有7.7億參數的檢查點。
用途
直接使用和下游使用
開發者在博客文章中表示,該模型:
我們的文本到文本框架允許我們對任何NLP任務使用相同的模型、損失函數和超參數,包括機器翻譯、文檔摘要、問答和分類任務(如情感分析)。我們甚至可以通過訓練T5預測數字的字符串表示而不是數字本身,將其應用於迴歸任務。
更多詳情請參閱博客文章和研究論文。
訓練詳情
訓練數據
該模型在巨型清潔爬取語料庫(C4)上進行預訓練,該語料庫與T5在同一研究論文的背景下開發和發佈。
該模型在無監督(1.)和有監督任務(2.)的多任務混合上進行預訓練。
因此,以下數據集用於(1.)和(2.):
- 用於無監督去噪目標的數據集:
- 用於有監督文本到文本語言建模目標的數據集:
- 句子可接受性判斷:
- 情感分析:
- 釋義/句子相似度:
- 自然語言推理:
- 句子完成:
- 詞義消歧:
- 問答:
訓練過程
模型開發者在摘要中寫道:
在本文中,我們通過引入一個統一的框架來探索NLP的遷移學習技術領域,該框架將每個語言問題轉換為文本到文本格式。我們的系統研究比較了數十個語言理解任務的預訓練目標、架構、無標籤數據集、遷移方法和其他因素。
引入的框架,即T5框架,涉及一種將論文中研究的方法結合起來的訓練過程。更多詳情請參閱研究論文。
評估
測試數據、因素和指標
開發者在24個任務上對模型進行了評估,完整詳情請參閱研究論文。
結果
T5-Large的完整結果請參閱研究論文中的表14。
環境影響
可以使用Lacoste等人(2019)中介紹的機器學習影響計算器來估算碳排放。
屬性 |
詳情 |
硬件類型 |
Google Cloud TPU Pods |
使用時長 |
更多信息待補充 |
雲服務提供商 |
GCP |
計算區域 |
更多信息待補充 |
碳排放 |
更多信息待補充 |
引用
BibTeX:
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA:
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
模型卡片作者
此模型卡片由Hugging Face團隊編寫。
🔧 技術細節
文檔未提及具體的技術實現細節(>50字),故跳過該章節。
📄 許可證
該模型使用Apache 2.0許可證。