T5-Efficient-BASE-FF9000オープンソースモデル - 深度狭型アーキテクチャで下流タスクのパフォーマンスがより優れています！

ホーム

T5 Efficient Base Ff9000

googleによって開発

T5-Efficient-BASE-FF9000はGoogleのオリジナル版T5のバリエーションで、深度狭型アーキテクチャを採用しており、パラメータ規模が似ている場合でも、下流タスクでの性能がより優れています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #深度狭型アーキテクチャ #英語の事前学習 #効率的な拡張

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

これはT5アーキテクチャに基づく事前学習モデルで、深度狭型の設計戦略を採用し、モデルの深度を優先的に増やすことで効率を向上させています。モデルは英語のC4データセットで事前学習されており、様々な英語のNLPタスクに適用可能です。

モデル特徴

深度狭型アーキテクチャ

高くて細い（深くて狭い）モデル設計を採用しており、基礎モデルよりも効率的で、パラメータ数、FLOPs、速度の3つの重要な効率指標で優れた性能を発揮します。

効率的な事前学習

大規模なクリーン版Common Crawl（C4）データセットで524288ステップの事前学習を行い、スパンのマスク言語モデリング目標を使用します。

柔軟な微調整

基礎モデルとして、様々な下流タスク（要約生成、質問応答システム、テキスト分類など）に対して微調整することができます。

モデル能力

テキスト生成

テキスト要約

質問応答システム

テキスト分類

使用事例

テキスト生成

自動要約

長い文書を自動的に簡潔な要約に変換します。

質問応答システム

オープンドメイン質問応答

与えられたテキストに基づいてユーザーの質問に回答します。

テキスト分類

🚀 T5-Efficient-BASE-FF9000 (深度窄化バージョン)

T5-Efficient-BASE-FF9000は、GoogleのオリジナルT5のバリエーションであり、T5モデルアーキテクチャに従っています。これは事前学習のみのチェックポイントであり、論文**Efficient Scaling: Insights from Pre-training and Fine-tuning Transformers**とともに公開されました。論文の著者はYi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzlerです。

簡単に言うと、この論文では、パラメータ数が近い他のモデルアーキテクチャと比較して、深度窄化のモデルアーキテクチャが下流タスクでより優れた性能を発揮すると指摘されています。

論文の原文を引用します：

我々は通常、他の次元を統一的に拡張する前に、まずモデルの深度を増やす深度窄化戦略を推奨します。これは主に、論文の前半部分で示されたように、深度がパレートフロンティアに与える影響の程度によるものです。具体的には、高くて細い（深度が大きく、幅が狭い）モデルは通常、基礎モデルよりも効率的です。同様に、高くて細い基礎モデルは、大型モデルよりも効率的である可能性もあります。我々は一般的に、モデルのサイズに関係なく、層数が増えるにつれて絶対性能が向上する場合があっても、パレート効率の相対的なゲインは層数の増加とともに減少し、32から36層で収束する傾向があることを発見しました。最後に、ここで言う効率は、パラメータ数、浮動小数点演算回数（FLOPs）、またはスループット（速度）といったいずれかの計算次元に関連しています。我々は、3つの重要な効率指標（パラメータ数、FLOPs、速度）をすべて報告し、どの計算次元を考慮するかの選択は実務者に委ねています。

より正確には、モデルの深度は、順番に積み重ねられたTransformerブロックの数として定義されます。したがって、単語埋め込みシーケンスは、各Transformerブロックを順番に通過して処理されます。

✨ 主な機能

このモデルのチェックポイント - t5-efficient-base-ff9000 - は基礎モデルタイプに属し、以下のバリエーションを持ちます：

フィードフォワード層の次元（ff） が 9000

このモデルには4.4942億個のパラメータがあり、全精度（fp32）では約1797.7 MBのメモリが必要で、半精度（fp16 または bf16）では898.85 MBのメモリが必要です。

以下はオリジナルのT5モデルアーキテクチャの概要です：

モデル	nl (el/dl)	ff	dm	kv	nh	パラメータ数
ミニ（Tiny）	4/4	1024	256	32	4	1600万
ミニ（Mini）	4/4	1536	384	32	8	3100万
スモール（Small）	6/6	2048	512	32	8	6000万
ベース（Base）	12/12	3072	768	64	12	2.2億
ラージ（Large）	24/24	4096	1024	64	16	7.38億
超大（Xl）	24/24	16384	1024	128	32	30億
超超大（XXl）	24/24	65536	1024	128	128	110億

以下は使用される略語の説明です：

略語	定義
nl	Transformerブロックの数（深度）
dm	埋め込みベクトルの次元（Transformerブロックの出力ベクトル）
kv	キー/値投影行列の次元
nh	アテンションヘッドの数
ff	Transformerブロック内の中間ベクトルの次元（フィードフォワード投影行列のサイズ）
el	エンコーダのTransformerブロックの数（エンコーダの深度）
dl	デコーダのTransformerブロックの数（デコーダの深度）
sh	アテンションヘッドが共有されていることを示す
skv	キー値投影行列が束縛されていることを示す

モデルのチェックポイントに特定の el または dl がない場合、エンコーダ層とデコーダ層の数はどちらも nl に対応します。

📚 ドキュメント

事前学習

このチェックポイントは、大規模クリーニング版汎用クローラデータ（C4）上で524288ステップの事前学習を行い、スパンベースのマスク言語モデリング（MLM）目標を採用しています。

微調整

⚠️ 重要な注意事項

このモデルは事前学習のチェックポイントであり、実際に使用するには微調整が必要です。このチェックポイントは英語で事前学習されているため、英語の自然言語処理タスクにのみ適用されます。

このモデルを微調整するには、以下の例を参考にすることができます：

PyTorch:

テキスト要約
質問応答
テキスト分類 - 注意：ここの学習例をエンコーダ - デコーダモデルに適合させるためにいくつかの微調整が必要です。

Tensorflow:

テキスト要約
テキスト分類 - 注意：ここの学習例をエンコーダ - デコーダモデルに適合させるためにいくつかの微調整が必要です。

JAX/Flax:

テキスト要約
テキスト分類 - 注意：ここの学習例をエンコーダ - デコーダモデルに適合させるためにいくつかの微調整が必要です。

詳細情報

我々は、読者にこのモデルのチェックポイントについてより深く理解するために、元の論文**Efficient Scaling: Insights from Pre-training and Fine-tuning Transformers**をよく読むことを強くお勧めします。この問題で説明されているように、sh または skv モデルアーキテクチャのバリエーションを含むチェックポイントは、実際の用途が限られており、詳細な説明が不足しているため、Transformersライブラリに移植されていません。これらのチェックポイントはここに保存されており、将来的に移植される可能性があります。