T5-Efficient-BASE-FF6000オープンソースモデル - 深度かつ幅の狭いアーキテクチャが下流タスクのパフォーマンスを向上させる

ホーム

T5 Efficient Base Ff6000

googleによって開発

T5-Efficient-BASE-FF6000はGoogleのオリジナルT5のバリエーションで、深度狭幅アーキテクチャを採用しており、パラメータ数が近いモデルアーキテクチャの中で、下流タスクの性能に優れています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #深度狭幅アーキテクチャ #英語事前学習 #効率的拡張

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

これは事前学習のみのチェックポイントで、T5モデルアーキテクチャに基づき、深度狭幅設計戦略を採用し、モデルの深度を優先的に増やして効率を向上させています。

モデル特徴

深度狭幅アーキテクチャ

モデルの幅ではなく深度を優先的に増やし、同じパラメータ数でより良い下流タスクの性能を提供します。

効率的な事前学習

Colossal Cleaned Common Crawl (C4)データセットで事前学習を行い、スパンのマスク言語モデリング目標を使用します。

パラメータ最適化

フィードフォワードネットワークの次元を6000に設定し、標準のT5-baseの3072よりも大きくしています。

モデル能力

テキスト生成

テキスト要約

質問応答システム

テキスト分類（微調整が必要）

使用事例

テキスト生成

内容要約

長いドキュメントから簡潔な要約を生成します。

質問応答システム

オープンドメイン質問応答

与えられたテキストに基づいて質問に答えます。

🚀 T5-Efficient-BASE-FF6000 (Deep-Narrow version)

T5-Efficient-BASE-FF6000は、GoogleのオリジナルT5に基づき、T5モデルアーキテクチャに沿ったモデルです。これは事前学習のみのチェックポイントであり、Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzlerによる論文**Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers**とともに公開されました。

一言で言えば、この論文は、同じパラメータ数の他のモデルアーキテクチャと比較して、Deep-Narrowモデルアーキテクチャが下流のパフォーマンスに有利であることを示しています。

論文から引用すると、

一般的に、他の次元での均一なスケーリングを考える前に、モデルの深さを優先的に増やすDeepNarrow戦略を推奨します。これは、論文の前のセクションで示されているように、深さがパレートフロンティアにどれだけ影響を与えるかによるものです。具体的には、高くて小さい（深くて狭い）モデルは、一般的にベースモデルよりも効率的です。同様に、高いベースモデルも、一般的に大きなモデルよりも効率的である可能性があります。一般的に、サイズに関係なく、レイヤーを積み重ね続けると絶対的なパフォーマンスが向上するかもしれませんが、レイヤーを増やすとパレート効率の相対的なゲインは減少し、32から36レイヤーで収束します。最後に、ここでの効率の概念は、パラメータ、FLOP、またはスループット（速度）などの任意のコンピュート次元に関連しています。私たちは3つの主要な効率メトリック（パラメータ数、FLOP、および速度）を報告し、どのコンピュート次元を考慮するかの決定は実践者に委ねます。

より正確に言うと、モデルの深さは、順次積み重ねられたトランスフォーマーブロックの数として定義されます。したがって、単語埋め込みのシーケンスは、各トランスフォーマーブロックによって順次処理されます。

✨ 主な機能

🔧 モデルアーキテクチャの詳細

このモデルチェックポイント - t5-efficient-base-ff6000 - はBaseタイプのモデルで、以下の変形があります。

ff は 6000

このモデルは3億3618万個のパラメータを持ち、完全精度（fp32）では約1344.71 MB、半精度（fp16またはbf16）では672.36 MBのメモリを必要とします。

オリジナルのT5モデルアーキテクチャの概要は以下の通りです。

モデル	nl (el/dl)	ff	dm	kv	nh	#パラメータ
Tiny	4/4	1024	256	32	4	16M
Mini	4/4	1536	384	32	8	31M
Small	6/6	2048	512	32	8	60M
Base	12/12	3072	768	64	12	220M
Large	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

以下は使用される略語の定義です。

略語	定義
nl	トランスフォーマーブロックの数（深さ）
dm	埋め込みベクトルの次元（トランスフォーマーブロックの出力ベクトル）
kv	キー/バリュー投影行列の次元
nh	アテンションヘッドの数
ff	トランスフォーマーブロック内の中間ベクトルの次元（フィードフォワード投影行列のサイズ）
el	エンコーダ内のトランスフォーマーブロックの数（エンコーダの深さ）
dl	デコーダ内のトランスフォーマーブロックの数（デコーダの深さ）
sh	アテンションヘッドが共有されていることを示す
skv	キーバリュー投影行列が結合されていることを示す