🚀 T5 11B 模型卡片
T5 11B 是一款具有 110 亿参数的强大语言模型,它将所有自然语言处理任务统一为文本到文本的格式,可应用于机器翻译、文档摘要、问答等多种任务。
🚀 快速开始
旧版本注意事项
在 transformers
v3.5.0 之前,由于 t5-11b
模型体积巨大,需要特殊处理。如果使用的是 transformers <= v3.4.0
版本,应将 use_cdn
标志设置为 False
来加载 t5-11b
,示例代码如下:
t5 = transformers.T5ForConditionalGeneration.from_pretrained('t5-11b', use_cdn = False)
内存问题解决办法
单个 GPU 很可能没有足够的内存来加载该模型,因为仅权重就超过 40 GB。可以采用以下方法解决:
- 模型并行:如 此 PR 中所述,使用模型并行来解决此问题。
- DeepSpeed 的 ZeRO - Offload:如 此帖子 中所述,采用 DeepSpeed 的 ZeRO - Offload 方法。
更多信息请参考 Hugging Face T5 文档 和模型开发者创建的 Colab 笔记本。
✨ 主要特性
- 统一文本到文本格式:将所有 NLP 任务统一为文本到文本的格式,可使用相同的模型、损失函数和超参数处理各种任务。
- 多语言支持:支持英语、法语、罗马尼亚语和德语。
- 多任务处理能力:可应用于机器翻译、文档摘要、问答、分类等多种任务,甚至可以应用于回归任务。
📦 安装指南
文档未提及具体安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型详情
模型描述
文本到文本转移变换器(T5)的开发者在 博客文章 中写道:
通过 T5,我们提出将所有 NLP 任务重构为统一的文本到文本格式,其中输入和输出始终是文本字符串,这与只能输出类别标签或输入片段的 BERT 风格模型形成对比。我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数。
T5 - 11B 是具有 110 亿参数的检查点。
- 开发者:Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。详见 相关论文 和 GitHub 仓库。
- 模型类型:语言模型
- 支持语言(NLP):英语、法语、罗马尼亚语、德语
- 许可证:Apache 2.0
- 相关模型:所有 T5 检查点
- 更多信息资源:
用途
直接使用和下游使用
开发者在 博客文章 中表示,该模型:
我们的文本到文本框架允许我们在任何 NLP 任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以通过训练 T5 预测数字的字符串表示而不是数字本身,将其应用于回归任务。
更多详情请参考 博客文章 和 研究论文。
训练详情
训练数据
该模型在 巨型清洁爬取语料库(C4) 上进行预训练,该语料库与 T5 在同一 研究论文 的背景下开发和发布。
该模型在无监督(1)和有监督任务(2)的多任务混合上进行预训练。以下是用于(1)和(2)的数据集:
- 用于无监督去噪目标的数据集:
- 用于有监督文本到文本语言建模目标的数据集:
- 句子可接受性判断:
- 情感分析:
- 释义/句子相似度:
- 自然语言推理:
- 句子完成:
- 词义消歧:
- 问答:
训练过程
模型开发者在 摘要 中写道:
在本文中,我们通过引入一个统一的框架,将每个语言问题转换为文本到文本的格式,探索了 NLP 迁移学习技术的领域。我们的系统研究比较了数十个语言理解任务上的预训练目标、架构、无标签数据集、迁移方法和其他因素。
所引入的框架,即 T5 框架,涉及将论文中研究的方法结合起来的训练过程。更多详情请参考 研究论文。
评估
测试数据、因素和指标
开发者在 24 个任务上对模型进行了评估,完整详情请参考 研究论文。
结果
T5 - 11B 的完整结果请参考 研究论文 中的表 14。
环境影响
可以使用 Lacoste 等人(2019) 提出的 机器学习影响计算器 来估算碳排放。
- 硬件类型:Google Cloud TPU Pods
- 使用时长:更多信息待补充
- 云服务提供商:GCP
- 计算区域:更多信息待补充
- 碳排放:更多信息待补充
引用
BibTeX
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
模型卡片作者
此模型卡片由 Hugging Face 团队撰写。
🔧 技术细节
文档未提供具体技术实现细节,故跳过此章节。
📄 许可证
该模型使用 Apache 2.0 许可证。