T5-large开源文本转换模型 - 免费部署助力多种NLP任务处理

首页

T5 Large

由 google-t5 开发

T5-Large是Google开发的文本到文本转换Transformer模型，具有7.7亿参数，支持多种NLP任务。

大型语言模型支持多种语言开源协议:Apache-2.0 #文本到文本转换 #多任务统一框架 #多语言支持

下载量 422.02k

发布时间 : 3/2/2022

模型简介

T5-Large是一个统一的文本到文本转换模型，能够处理多种自然语言处理任务，如摘要、翻译、问答等。

模型特点

统一的文本到文本框架

所有NLP任务都被重新定义为统一的文本到文本格式，输入和输出均为文本字符串。

多任务学习

模型在无监督和有监督任务的多任务混合上进行预训练，支持多种NLP任务。

大规模预训练

在Colossal Clean Crawled Corpus (C4)等大规模数据集上进行预训练，具备强大的语言理解能力。

模型能力

文本生成

文本摘要

机器翻译

问答系统

情感分析

自然语言推理

使用案例

文本处理

文档摘要

将长文档自动摘要为简洁的文本。

机器翻译

支持多种语言之间的文本翻译。

问答系统

开放域问答

回答用户提出的各种问题。

🚀 T5大模型卡片

T5（Text-To-Text Transfer Transformer）是一个将所有自然语言处理任务统一为文本到文本格式的模型，T5-Large是其拥有7.7亿参数的检查点，可用于机器翻译、文档摘要、问答等多种任务。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

更多示例请参阅Hugging Face T5文档和模型开发者创建的Colab Notebook。

✨ 主要特性

统一文本格式：T5将所有NLP任务重构为统一的文本到文本格式，输入和输出始终是文本字符串，可对任何NLP任务使用相同的模型、损失函数和超参数。
多语言支持：支持英语、法语、罗马尼亚语和德语。
多任务处理：可用于机器翻译、文档摘要、问答、分类任务（如情感分析），甚至可以应用于回归任务。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

高级用法

文档未提及高级用法代码示例，故跳过该部分。

📚 详细文档

模型详情

模型描述

文本到文本转移变换器（T5）的开发者在博客文章中写道：

通过T5，我们提出将所有NLP任务重构为统一的文本到文本格式，其中输入和输出始终是文本字符串，这与只能输出类标签或输入跨度的BERT风格模型形成对比。我们的文本到文本框架允许我们对任何NLP任务使用相同的模型、损失函数和超参数。

T5-Large是拥有7.7亿参数的检查点。

属性	详情
开发者	Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。见相关论文和GitHub仓库
模型类型	语言模型
支持语言	英语、法语、罗马尼亚语、德语
许可证	Apache 2.0
相关模型	所有T5检查点
更多信息资源	研究论文、Google的T5博客文章、GitHub仓库、Hugging Face T5文档

用途

直接使用和下游使用

开发者在博客文章中表示，该模型：

我们的文本到文本框架允许我们对任何NLP任务使用相同的模型、损失函数和超参数，包括机器翻译、文档摘要、问答和分类任务（如情感分析）。我们甚至可以通过训练T5预测数字的字符串表示而不是数字本身，将其应用于回归任务。

更多详情请参阅博客文章和研究论文。

训练详情

训练数据

该模型在巨型清洁爬取语料库（C4）上进行预训练，该语料库与T5在同一研究论文的背景下开发和发布。

该模型在无监督（1.）和有监督任务（2.）的多任务混合上进行预训练。因此，以下数据集用于（1.）和（2.）：

用于无监督去噪目标的数据集：
- C4
- Wiki-DPR
用于有监督文本到文本语言建模目标的数据集：
- 句子可接受性判断：
  - CoLA Warstadt等人，2018
- 情感分析：
  - SST-2 Socher等人，2013
- 释义/句子相似度：
  - MRPC Dolan和Brockett，2005
  - STS-B Ceret等人，2017
  - QQP Iyer等人，2017
- 自然语言推理：
  - MNLI Williams等人，2017
  - QNLI Rajpurkar等人，2016
  - RTE Dagan等人，2005
  - CB De Marneff等人，2019
- 句子完成：
  - COPA Roemmele等人，2011
- 词义消歧：
  - WIC Pilehvar和Camacho-Collados，2018
- 问答：
  - MultiRC Khashabi等人，2018
  - ReCoRD Zhang等人，2018
  - BoolQ Clark等人，2019

训练过程

模型开发者在摘要中写道：

在本文中，我们通过引入一个统一的框架来探索NLP的迁移学习技术领域，该框架将每个语言问题转换为文本到文本格式。我们的系统研究比较了数十个语言理解任务的预训练目标、架构、无标签数据集、迁移方法和其他因素。

引入的框架，即T5框架，涉及一种将论文中研究的方法结合起来的训练过程。更多详情请参阅研究论文。

评估

测试数据、因素和指标

开发者在24个任务上对模型进行了评估，完整详情请参阅研究论文。

结果

T5-Large的完整结果请参阅研究论文中的表14。

环境影响

可以使用Lacoste等人（2019）中介绍的机器学习影响计算器来估算碳排放。

属性	详情
硬件类型	Google Cloud TPU Pods
使用时长	更多信息待补充
云服务提供商	GCP
计算区域	更多信息待补充
碳排放	更多信息待补充

引用

BibTeX：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.