S

Switch C 2048

googleによって開発
マスク言語モデリングタスクでトレーニングされた混合エキスパート(MoE)モデルで、パラメータ規模は1.6兆に達し、T5に似たアーキテクチャを採用しているが、フィードフォワード層はスパースMLP層に置き換えられている
ダウンロード数 73
リリース時間 : 11/4/2022

モデル概要

Switch Transformersは混合エキスパートアーキテクチャで拡張されたテキスト生成モデルで、事前学習タスクにおいて標準T5モデルと比較してより優れた拡張性とトレーニング効率を示している

モデル特徴

混合エキスパートアーキテクチャ
フィードフォワード層は2048のエキスパートMLPを含むスパース層に置き換えられ、パラメータ効率的な拡張を実現
効率的なトレーニング
T5-XXLモデルと比較して4倍のトレーニング加速を実現
大規模パラメータ
モデルパラメータ規模は1.6兆に達し、3.1TBのストレージスペースを必要とする

モデル能力

テキスト生成
マスク言語モデリング

使用事例

テキスト補完
マスクテキスト生成
マスクトークンを含む入力テキストに基づいて完全な内容を生成
例示的な入力出力は、モデルが欠落した内容を適切に埋められることを示している
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase