T5-large開源文本轉換模型 - 免費部署助力多種NLP任務處理

首頁

T5 Large

由google-t5開發

T5-Large是Google開發的文本到文本轉換Transformer模型，具有7.7億參數，支持多種NLP任務。

大型語言模型支持多種語言開源協議:Apache-2.0 #文本到文本轉換 #多任務統一框架 #多語言支持

下載量 422.02k

發布時間 : 3/2/2022

模型概述

T5-Large是一個統一的文本到文本轉換模型，能夠處理多種自然語言處理任務，如摘要、翻譯、問答等。

模型特點

統一的文本到文本框架

所有NLP任務都被重新定義為統一的文本到文本格式，輸入和輸出均為文本字符串。

多任務學習

模型在無監督和有監督任務的多任務混合上進行預訓練，支持多種NLP任務。

大規模預訓練

在Colossal Clean Crawled Corpus (C4)等大規模數據集上進行預訓練，具備強大的語言理解能力。

模型能力

文本生成

文本摘要

機器翻譯

問答系統

情感分析

自然語言推理

使用案例

文本處理

文檔摘要

將長文檔自動摘要為簡潔的文本。

機器翻譯

支持多種語言之間的文本翻譯。

問答系統

開放域問答

回答用戶提出的各種問題。

🚀 T5大模型卡片

T5（Text-To-Text Transfer Transformer）是一個將所有自然語言處理任務統一為文本到文本格式的模型，T5-Large是其擁有7.7億參數的檢查點，可用於機器翻譯、文檔摘要、問答等多種任務。

🚀 快速開始

使用以下代碼開始使用該模型：

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

更多示例請參閱Hugging Face T5文檔和模型開發者創建的Colab Notebook。

✨ 主要特性

統一文本格式：T5將所有NLP任務重構為統一的文本到文本格式，輸入和輸出始終是文本字符串，可對任何NLP任務使用相同的模型、損失函數和超參數。
多語言支持：支持英語、法語、羅馬尼亞語和德語。
多任務處理：可用於機器翻譯、文檔摘要、問答、分類任務（如情感分析），甚至可以應用於迴歸任務。

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

高級用法

文檔未提及高級用法代碼示例，故跳過該部分。

📚 詳細文檔

模型詳情

模型描述

文本到文本轉移變換器（T5）的開發者在博客文章中寫道：

通過T5，我們提出將所有NLP任務重構為統一的文本到文本格式，其中輸入和輸出始終是文本字符串，這與只能輸出類標籤或輸入跨度的BERT風格模型形成對比。我們的文本到文本框架允許我們對任何NLP任務使用相同的模型、損失函數和超參數。

T5-Large是擁有7.7億參數的檢查點。

屬性	詳情
開發者	Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。見相關論文和GitHub倉庫
模型類型	語言模型
支持語言	英語、法語、羅馬尼亞語、德語
許可證	Apache 2.0
相關模型	所有T5檢查點
更多信息資源	研究論文、Google的T5博客文章、GitHub倉庫、Hugging Face T5文檔

用途

直接使用和下游使用

開發者在博客文章中表示，該模型：

我們的文本到文本框架允許我們對任何NLP任務使用相同的模型、損失函數和超參數，包括機器翻譯、文檔摘要、問答和分類任務（如情感分析）。我們甚至可以通過訓練T5預測數字的字符串表示而不是數字本身，將其應用於迴歸任務。

更多詳情請參閱博客文章和研究論文。

訓練詳情

訓練數據

該模型在巨型清潔爬取語料庫（C4）上進行預訓練，該語料庫與T5在同一研究論文的背景下開發和發佈。

該模型在無監督（1.）和有監督任務（2.）的多任務混合上進行預訓練。因此，以下數據集用於（1.）和（2.）：

用於無監督去噪目標的數據集：
- C4
- Wiki-DPR
用於有監督文本到文本語言建模目標的數據集：
- 句子可接受性判斷：
  - CoLA Warstadt等人，2018
- 情感分析：
  - SST-2 Socher等人，2013
- 釋義/句子相似度：
  - MRPC Dolan和Brockett，2005
  - STS-B Ceret等人，2017
  - QQP Iyer等人，2017
- 自然語言推理：
  - MNLI Williams等人，2017
  - QNLI Rajpurkar等人，2016
  - RTE Dagan等人，2005
  - CB De Marneff等人，2019
- 句子完成：
  - COPA Roemmele等人，2011
- 詞義消歧：
  - WIC Pilehvar和Camacho-Collados，2018
- 問答：
  - MultiRC Khashabi等人，2018
  - ReCoRD Zhang等人，2018
  - BoolQ Clark等人，2019

訓練過程

模型開發者在摘要中寫道：

在本文中，我們通過引入一個統一的框架來探索NLP的遷移學習技術領域，該框架將每個語言問題轉換為文本到文本格式。我們的系統研究比較了數十個語言理解任務的預訓練目標、架構、無標籤數據集、遷移方法和其他因素。

引入的框架，即T5框架，涉及一種將論文中研究的方法結合起來的訓練過程。更多詳情請參閱研究論文。

評估

測試數據、因素和指標

開發者在24個任務上對模型進行了評估，完整詳情請參閱研究論文。

結果

T5-Large的完整結果請參閱研究論文中的表14。

環境影響

可以使用Lacoste等人（2019）中介紹的機器學習影響計算器來估算碳排放。

屬性	詳情
硬件類型	Google Cloud TPU Pods
使用時長	更多信息待補充
雲服務提供商	GCP
計算區域	更多信息待補充
碳排放	更多信息待補充

引用

BibTeX：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.