S

Switch C 2048

由 google 开发
基于掩码语言建模任务训练的混合专家(MoE)模型,参数规模达1.6万亿,采用类似T5的架构但前馈层替换为稀疏MLP层
下载量 73
发布时间 : 11/4/2022

模型简介

Switch Transformers是通过混合专家架构扩展的文本生成模型,在预训练任务上相比标准T5模型展现出更好的扩展性和训练效率

模型特点

混合专家架构
前馈层被替换为包含2048个专家MLP的稀疏层,实现参数高效扩展
高效训练
相比T5-XXL模型实现4倍训练加速
大规模参数
模型参数规模达1.6万亿,需要3.1TB存储空间

模型能力

文本生成
掩码语言建模

使用案例

文本补全
掩码文本生成
根据包含掩码标记的输入文本生成完整内容
示例输入输出展示模型能合理填充缺失内容
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase