S

Switch C 2048

由google開發
基於掩碼語言建模任務訓練的混合專家(MoE)模型,參數規模達1.6萬億,採用類似T5的架構但前饋層替換為稀疏MLP層
下載量 73
發布時間 : 11/4/2022

模型概述

Switch Transformers是通過混合專家架構擴展的文本生成模型,在預訓練任務上相比標準T5模型展現出更好的擴展性和訓練效率

模型特點

混合專家架構
前饋層被替換為包含2048個專家MLP的稀疏層,實現參數高效擴展
高效訓練
相比T5-XXL模型實現4倍訓練加速
大規模參數
模型參數規模達1.6萬億,需要3.1TB存儲空間

模型能力

文本生成
掩碼語言建模

使用案例

文本補全
掩碼文本生成
根據包含掩碼標記的輸入文本生成完整內容
示例輸入輸出展示模型能合理填充缺失內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase