T

T5 Efficient Small Kv256

Developed by google
T5-Efficient-SMALL-KV256是谷歌T5的变体,采用深度窄型架构优化下游任务性能,参数量1.17亿,需微调使用。
Downloads 16
Release Time : 3/2/2022

Model Overview

基于T5架构的深度窄型预训练模型,优先增加模型深度以提升下游任务效率,需微调后用于英语NLP任务。

Model Features

深度窄型架构
通过增加Transformer层数(深度)而非宽度优化性能,论文证明该策略对下游任务更高效
KV投影优化
键值投影维度设置为256,平衡计算效率与模型容量
预训练目标
使用C4数据集基于跨度的掩码语言建模(MLM)目标训练

Model Capabilities

文本生成
文本摘要
问答系统
文本分类(需调整)

Use Cases

文本生成
新闻摘要
微调后生成输入文本的简洁摘要
问答系统
开放域问答
根据上下文生成问题答案
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase