T5-base开源模型 - 支持多语言NLP任务的免费文本转换好帮手

首页

T5 Base

由 google-t5 开发

T5基础版是由Google开发的文本到文本转换Transformer模型，参数规模2.2亿，支持多语言NLP任务。

大型语言模型支持多种语言开源协议:Apache-2.0 #多任务统一框架 #多语言翻译 #文本摘要生成

下载量 5.4M

发布时间 : 3/2/2022

模型简介

T5基础版是一个统一的文本到文本转换框架，能够处理多种自然语言处理任务，包括翻译、摘要、问答等。

模型特点

统一文本到文本框架

所有NLP任务都被重构为统一的文本到文本格式，使用相同的模型架构和训练方法。

多任务学习

模型在无监督和有监督任务的混合上进行预训练，增强了泛化能力。

多语言支持

支持英语、法语、罗马尼亚语和德语等多种语言处理任务。

模型能力

文本生成

机器翻译

文档摘要

问答系统

情感分析

自然语言推理

使用案例

文本处理

文档摘要

将长文档自动压缩为简洁摘要

机器翻译

在支持的语言之间进行文本翻译

问答系统

开放域问答

回答基于文本内容的问题

🚀 T5 Base 模型卡片

T5 Base 是一个具有 2.2 亿参数的语言模型，它将所有 NLP 任务统一为文本到文本的格式，可应用于机器翻译、文档摘要、问答等多种任务。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5Model.from_pretrained("t5-base")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

更多示例请参考 Hugging Face T5 文档和模型开发者创建的 Colab 笔记本。

✨ 主要特性

统一的文本到文本格式：可以使用相同的模型、损失函数和超参数处理各种 NLP 任务。
多语言支持：支持英语、法语、罗马尼亚语和德语。

📦 模型详情

模型描述

文本到文本转移变换器（T5）的开发者在博客文章中写道：

通过 T5，我们提出将所有 NLP 任务重构为统一的文本到文本格式，其中输入和输出始终是文本字符串，这与只能输出类别标签或输入跨度的 BERT 风格模型形成对比。我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数。

T5-Base 是具有 2.2 亿参数的检查点。

开发者：Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。请参阅相关论文和 GitHub 仓库
模型类型：语言模型
支持语言：英语、法语、罗马尼亚语、德语
许可证：Apache 2.0
相关模型：所有 T5 检查点
更多信息资源：

模型用途

直接使用和下游使用

开发者在博客文章中指出，该模型：

我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数，包括机器翻译、文档摘要、问答和分类任务（如情感分析）。我们甚至可以通过训练 T5 预测数字的字符串表示而不是数字本身，将其应用于回归任务。

更多详细信息请参阅博客文章和研究论文。

训练详情

训练数据

该模型在大规模清洁爬取语料库（C4）上进行预训练，该语料库是在与 T5 相同的研究论文背景下开发和发布的。

该模型在无监督（1）和有监督任务（2）的多任务混合上进行预训练。因此，以下数据集用于（1）和（2）：

用于无监督去噪目标的数据集：

C4
Wiki-DPR

用于有监督文本到文本语言建模目标的数据集：

句子可接受性判断
- CoLA Warstadt 等人，2018
情感分析
- SST-2 Socher 等人，2013
释义/句子相似度
- MRPC Dolan 和 Brockett，2005
- STS-B Ceret 等人，2017
- QQP Iyer 等人，2017
自然语言推理
- MNLI Williams 等人，2017
- QNLI Rajpurkar 等人，2016
- RTE Dagan 等人，2005
- CB De Marneff 等人，2019
句子完成
- COPA Roemmele 等人，2011
词义消歧
- WIC Pilehvar 和 Camacho-Collados，2018
问答
- MultiRC Khashabi 等人，2018
- ReCoRD Zhang 等人，2018
- BoolQ Clark 等人，2019

训练过程

模型开发者在摘要中写道：

在本文中，我们通过引入一个统一的框架，将每个语言问题转换为文本到文本的格式，探索了 NLP 迁移学习技术的领域。我们的系统研究比较了数十种语言理解任务的预训练目标、架构、无标签数据集、迁移方法和其他因素。

所引入的框架，即 T5 框架，涉及一个将论文中研究的方法结合起来的训练过程。更多详细信息请参阅研究论文。

评估

测试数据、因素和指标

开发者在 24 个任务上对模型进行了评估，完整详情请参阅研究论文。

结果

T5-Base 的完整结果请参阅研究论文中的表 14。

环境影响

可以使用 Lacoste 等人（2019）提出的机器学习影响计算器来估算碳排放。

硬件类型：Google Cloud TPU Pods
使用时长：更多信息待补充
云服务提供商：GCP
计算区域：更多信息待补充
碳排放：更多信息待补充

引用

BibTeX：

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA：

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.