T5-Efficient-BASE-FF6000开源模型 - 深度窄型架构让下游任务表现更出色

首页

T5 Efficient Base Ff6000

由 google 开发

T5-Efficient-BASE-FF6000是谷歌原版T5的一个变体，采用深度窄型架构，在参数数量相近的模型架构中，下游任务性能更具优势。

大型语言模型英语开源协议:Apache-2.0 #深度窄型架构 #英语预训练 #高效扩展

下载量 16

发布时间 : 3/2/2022

模型简介

这是一个仅预训练的检查点，基于T5模型架构，采用深度窄型设计策略，优先增加模型深度以提高效率。

模型特点

深度窄型架构

优先增加模型深度而非宽度，在相同参数数量下提供更好的下游任务性能

高效预训练

在Colossal Cleaned Common Crawl (C4)数据集上进行预训练，使用跨度的掩码语言建模目标

参数优化

前馈网络维度设置为6000，相比标准T5-base的3072更大

模型能力

文本生成

文本摘要

问答系统

文本分类（需微调）

使用案例

文本生成

内容摘要

对长文档生成简洁摘要

问答系统

开放域问答

基于给定文本回答问题

🚀 T5-Efficient-BASE-FF6000（深度窄化版本）

T5-Efficient-BASE-FF6000 是谷歌原始 T5 的一个变体，遵循 T5 模型架构。它是一个仅预训练的检查点，随论文**高效扩展：预训练和微调 Transformer 的见解**发布，论文作者为 Yi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler。

简而言之，该论文指出，与参数数量相近的其他模型架构相比，深度窄化的模型架构在下游性能方面更具优势。

引用论文内容：

我们通常建议采用深度窄化策略，即在考虑对其他维度进行统一扩展之前，优先增加模型的深度。这主要是因为，如论文前面章节所示，深度对帕累托前沿的影响很大。具体来说，一个高而小（深度大且宽度窄）的模型通常比基础模型更高效。同样，一个高的基础模型通常也比大型模型更高效。我们通常发现，无论模型大小如何，即使随着层数的增加，绝对性能可能会提高，但帕累托效率的相对增益会随着层数的增加而减小，在 32 到 36 层时收敛。最后，我们注意到，这里的效率概念涉及任何一种计算维度，即参数、浮点运算次数或吞吐量（速度）。我们报告了所有三个关键的效率指标（参数数量、浮点运算次数和速度），并将选择考虑哪种计算维度的决定权留给从业者。

更准确地说，模型深度 定义为顺序堆叠的 Transformer 块的数量。因此，单词嵌入序列会依次由每个 Transformer 块进行处理。

🚀 快速开始

本模型是预训练模型，需进行微调才能实际使用。它仅适用于英文自然语言处理任务。你可以参考以下示例对模型进行微调：

PyTorch：
- 文本摘要
- 问答系统
- 文本分类 - 注意：你需要对这里的训练示例进行一些微调，使其适用于编码器 - 解码器模型。
Tensorflow：
- 文本摘要
- 文本分类 - 注意：你需要对这里的训练示例进行一些微调，使其适用于编码器 - 解码器模型。
JAX/Flax：
- 文本摘要
- 文本分类 - 注意：你需要对这里的训练示例进行一些微调，使其适用于编码器 - 解码器模型。

✨ 主要特性

与参数数量相近的其他模型架构相比，深度窄化的模型架构在下游性能方面更具优势。

📚 详细文档

模型架构详情

此模型检查点 - t5-efficient-base-ff6000 - 属于基础模型类型，具有以下变体：

ff 为 6000

它有 3.3618 亿 个参数，因此在全精度（fp32）下大约需要 1344.71 MB 的内存，在半精度（fp16 或 bf16）下需要 672.36 MB 的内存。

原始 T5 模型架构总结如下：

模型	nl (el/dl)	ff	dm	kv	nh	参数数量
Tiny	4/4	1024	256	32	4	16M
Mini	4/4	1536	384	32	8	31M
Small	6/6	2048	512	32	8	60M
Base	12/12	3072	768	64	12	220M
Large	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

以下是使用的缩写说明：

缩写	定义
nl	Transformer 块的数量（深度）
dm	嵌入向量的维度（Transformer 块的输出向量）
kv	键/值投影矩阵的维度
nh	注意力头的数量
ff	Transformer 块内中间向量的维度（前馈投影矩阵的大小）
el	编码器中 Transformer 块的数量（编码器深度）
dl	解码器中 Transformer 块的数量（解码器深度）
sh	表示注意力头是共享的
skv	表示键 - 值投影矩阵是绑定的