t5-efficient-base开源模型 - 基于T5架构优化下游任务，免费助力多样应用

首页

T5 Efficient Base

由 google 开发

T5-Efficient-BASE是基于谷歌T5架构的变体，采用深度窄型设计优化下游任务表现，参数量2.229亿

大型语言模型英语开源协议:Apache-2.0 #深度窄型架构 #英文预训练 #高效参数利用

下载量 735

发布时间 : 3/2/2022

模型简介

该模型是对原始T5架构的改进版本，通过优先增加模型深度而非宽度来提升效率，适用于英文NLP任务。需微调后使用。

模型特点

深度窄型架构

相比标准T5，优先增加模型深度而非宽度，在相同参数量下提升下游任务表现

高效预训练

在C4数据集上进行524,288步预训练，采用跨度的掩码语言建模目标

参数效率优化

通过高瘦型设计实现更好的帕累托效率，平衡参数量、FLOPs和推理速度

模型能力

文本生成

文本摘要

问答系统

文本分类（需调整架构）

使用案例

文本生成

自动摘要生成

将长文档压缩为简洁摘要

问答系统

开放域问答

基于给定上下文回答自然语言问题

🚀 T5-Efficient-BASE（深度窄化版本）

T5-Efficient-BASE是谷歌原始T5的一个变体，遵循T5模型架构。它是一个仅预训练的检查点，随论文**高效扩展：来自预训练和微调Transformer的见解**发布，论文作者为Yi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler。

简而言之，该论文指出，与参数数量相近的其他模型架构相比，深度窄化的模型架构在下游任务性能上更具优势。

引用论文中的内容：

我们通常推荐深度窄化策略，即在考虑对其他维度进行统一扩展之前，优先增加模型的深度。这主要是因为论文前面章节所展示的深度对帕累托前沿的影响程度。具体来说，一个又高又小（深度大且宽度窄）的模型通常比基础模型更高效。同样，一个高基础模型通常也可能比大型模型更高效。我们普遍发现，无论模型大小如何，即使随着层数的不断堆叠，绝对性能可能会提高，但随着层数的增加，帕累托效率的相对增益会逐渐减小，在32到36层时收敛。最后，我们注意到这里的效率概念与任何一种计算维度相关，即参数数量、浮点运算次数（FLOPs）或吞吐量（速度）。我们报告了所有三个关键的效率指标（参数数量、FLOPS和速度），并将选择考虑哪种计算维度的决定权留给从业者。

更准确地说，模型深度定义为顺序堆叠的Transformer块的数量。因此，词嵌入序列会依次由每个Transformer块进行处理。

✨ 主要特性

本模型具有以下特性：

基于谷歌原始T5模型架构进行改进。
采用深度窄化策略，在下游任务性能上表现更优。
仅预训练，需进行微调以应用于实际任务。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

详细模型架构

此模型检查点 - t5-efficient-base - 属于基础模型类型，无变体。它有2.2293亿个参数，因此在全精度（fp32）下大约需要891.73 MB的内存，在半精度（fp16 或 bf16）下需要445.86 MB的内存。

原始 T5模型架构总结如下：

模型	nl (el/dl)	ff	dm	kv	nh	参数数量
Tiny	4/4	1024	256	32	4	16M
Mini	4/4	1536	384	32	8	31M
Small	6/6	2048	512	32	8	60M
Base	12/12	3072	768	64	12	220M
Large	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

使用的缩写含义如下：

缩写	定义
nl	Transformer块的数量（深度）
dm	嵌入向量的维度（Transformer块的输出向量）
kv	键/值投影矩阵的维度
nh	注意力头的数量
ff	Transformer块内中间向量的维度（前馈投影矩阵的大小）
el	编码器中Transformer块的数量（编码器深度）
dl	解码器中Transformer块的数量（解码器深度）
sh	表示注意力头共享
skv	表示键值投影矩阵绑定