🚀 T5大模型卡片
T5(Text-To-Text Transfer Transformer)是一个将所有自然语言处理任务统一为文本到文本格式的模型,T5-Large是其拥有7.7亿参数的检查点,可用于机器翻译、文档摘要、问答等多种任务。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import T5Tokenizer, T5Model
tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")
input_ids = tokenizer(
"Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state
更多示例请参阅Hugging Face T5文档和模型开发者创建的Colab Notebook。
✨ 主要特性
- 统一文本格式:T5将所有NLP任务重构为统一的文本到文本格式,输入和输出始终是文本字符串,可对任何NLP任务使用相同的模型、损失函数和超参数。
- 多语言支持:支持英语、法语、罗马尼亚语和德语。
- 多任务处理:可用于机器翻译、文档摘要、问答、分类任务(如情感分析),甚至可以应用于回归任务。
📦 安装指南
文档未提及安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import T5Tokenizer, T5Model
tokenizer = T5Tokenizer.from_pretrained("t5-large")
model = T5Model.from_pretrained("t5-large")
input_ids = tokenizer(
"Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state
高级用法
文档未提及高级用法代码示例,故跳过该部分。
📚 详细文档
模型详情
模型描述
文本到文本转移变换器(T5)的开发者在博客文章中写道:
通过T5,我们提出将所有NLP任务重构为统一的文本到文本格式,其中输入和输出始终是文本字符串,这与只能输出类标签或输入跨度的BERT风格模型形成对比。我们的文本到文本框架允许我们对任何NLP任务使用相同的模型、损失函数和超参数。
T5-Large是拥有7.7亿参数的检查点。
用途
直接使用和下游使用
开发者在博客文章中表示,该模型:
我们的文本到文本框架允许我们对任何NLP任务使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以通过训练T5预测数字的字符串表示而不是数字本身,将其应用于回归任务。
更多详情请参阅博客文章和研究论文。
训练详情
训练数据
该模型在巨型清洁爬取语料库(C4)上进行预训练,该语料库与T5在同一研究论文的背景下开发和发布。
该模型在无监督(1.)和有监督任务(2.)的多任务混合上进行预训练。
因此,以下数据集用于(1.)和(2.):
- 用于无监督去噪目标的数据集:
- 用于有监督文本到文本语言建模目标的数据集:
- 句子可接受性判断:
- 情感分析:
- 释义/句子相似度:
- 自然语言推理:
- 句子完成:
- 词义消歧:
- 问答:
训练过程
模型开发者在摘要中写道:
在本文中,我们通过引入一个统一的框架来探索NLP的迁移学习技术领域,该框架将每个语言问题转换为文本到文本格式。我们的系统研究比较了数十个语言理解任务的预训练目标、架构、无标签数据集、迁移方法和其他因素。
引入的框架,即T5框架,涉及一种将论文中研究的方法结合起来的训练过程。更多详情请参阅研究论文。
评估
测试数据、因素和指标
开发者在24个任务上对模型进行了评估,完整详情请参阅研究论文。
结果
T5-Large的完整结果请参阅研究论文中的表14。
环境影响
可以使用Lacoste等人(2019)中介绍的机器学习影响计算器来估算碳排放。
属性 |
详情 |
硬件类型 |
Google Cloud TPU Pods |
使用时长 |
更多信息待补充 |
云服务提供商 |
GCP |
计算区域 |
更多信息待补充 |
碳排放 |
更多信息待补充 |
引用
BibTeX:
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA:
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
模型卡片作者
此模型卡片由Hugging Face团队编写。
🔧 技术细节
文档未提及具体的技术实现细节(>50字),故跳过该章节。
📄 许可证
该模型使用Apache 2.0许可证。