T

T5 Efficient Small Kv256

googleによって開発
T5 - Efficient - SMALL - KV256はGoogleのT5のバリエーションで、深度狭幅アーキテクチャを採用して下流タスクの性能を最適化しています。パラメータ数は1.17億で、微調整が必要です。
ダウンロード数 16
リリース時間 : 3/2/2022

モデル概要

T5アーキテクチャに基づく深度狭幅事前学習モデルで、下流タスクの効率を向上させるためにモデルの深度を優先的に増やしています。英語のNLPタスクに使用するには微調整が必要です。

モデル特徴

深度狭幅アーキテクチャ
Transformerの層数(深度)を増やすことで、幅を増やすよりも性能を最適化します。論文では、この戦略が下流タスクに対してより効率的であることが証明されています。
KV投影最適化
キーと値の投影次元を256に設定し、計算効率とモデル容量のバランスを取ります。
事前学習目標
C4データセットを使用して、スパンベースのマスク言語モデリング(MLM)目標で学習します。

モデル能力

テキスト生成
テキスト要約
質問応答システム
テキスト分類(調整が必要)

使用事例

テキスト生成
ニュース要約
微調整後、入力テキストの簡潔な要約を生成します。
質問応答システム
オープンドメイン質問応答
コンテキストに基づいて質問の答えを生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase