T5 Efficient XLオープンソースモデル - 下流タスクのパフォーマンスを向上させ、無料で効率的なアプリケーションを支援

ホーム

T5 Efficient Xl

googleによって開発

T5効率的XLはGoogleのT5モデルの深層ナロー変種で、モデルの幅ではなく深さを増やすことで下流タスクの性能を向上させることに焦点を当てています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #深層ナローアーキテクチャ #英語テキスト生成 #大規模事前学習

ダウンロード数 63

リリース時間 : 3/2/2022

モデル概要

これは事前学習のみのチェックポイントで、深層ナローアーキテクチャ設計を採用しており、Transformerブロックの数を増やすことでモデル性能を最適化することを目的としています。

モデル特徴

深層ナローアーキテクチャ

モデルの幅ではなく深さを優先的に増やし、同等パラメータ数の他のアーキテクチャと比べて下流タスクに有利

効率的な事前学習

C4データセットで524288ステップの事前学習を行い、スパンを用いたマスク言語モデリング目標を使用

パラメータ最適化

フル精度では約11406.62 MBのメモリを必要とし、半精度では約5703.31 MBのメモリを必要とする

モデル能力

テキスト生成

テキスト要約

質問応答システム

テキスト分類（微調整が必要）

使用事例

テキスト処理

自動要約生成

長文書を自動的に簡潔な要約に圧縮

質問応答システム

与えられたテキストに基づいてユーザーの質問に回答

コンテンツ生成

テキスト継続

プロンプトに基づいて一貫性のある続きのテキストを生成

🚀 T5-Efficient-XL (Deep-Narrow version)

T5-Efficient-XLは、GoogleのオリジナルT5に基づき、T5モデルアーキテクチャに従ったバリエーションです。これは事前学習のみのチェックポイントであり、Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzlerによる論文**Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers**とともに公開されました。

一言で言えば、この論文は、同じパラメータ数の他のモデルアーキテクチャと比較して、Deep-Narrowモデルアーキテクチャが下流タスクのパフォーマンスに有利であることを示しています。

論文から引用すると、

我々は一般的に、他の次元にわたる均一なスケーリングを考える前に、モデルの深さを優先的に増やすDeepNarrow戦略を推奨します。これは主に、論文の前のセクションで示されているように、深さがパレートフロンティアにどれだけ影響を与えるかによるものです。具体的には、高くて小さい（深くて狭い）モデルは、基本モデルと比較して一般的により効率的です。同様に、高い基本モデルも、大きなモデルと比較して一般的により効率的である可能性があります。我々は一般的に、サイズに関係なく、層を積み重ね続けると絶対的なパフォーマンスが向上するかもしれませんが、層を増やすにつれてパレート効率の相対的なゲインは減少し、32から36層で収束することを発見しました。最後に、我々がここで言う効率性とは、パラメータ数、FLOP数またはスループット（速度）などの任意の計算次元に関係します。我々は3つの主要な効率メトリクス（パラメータ数、FLOP数、速度）を報告し、どの計算次元を考慮するかの決定は実務者に委ねます。

もう少し正確に言うと、モデルの深さは、順次積み重ねられたトランスフォーマーブロックの数として定義されます。したがって、単語埋め込みのシーケンスは、各トランスフォーマーブロックによって順次処理されます。

🚀 クイックスタート

このモデルは事前学習のみのチェックポイントであり、実際の使用にはファインチューニングが必要です。以下に、ファインチューニングの例をいくつか示します。

詳細なモデルアーキテクチャ

このモデルチェックポイント - t5-efficient-xl - は、モデルタイプがXlで、バリエーションはありません。このモデルは2851.66百万個のパラメータを持ち、したがって、完全精度（fp32）では約11406.62 MB、半精度（fp16またはbf16）では5703.31 MBのメモリを必要とします。

オリジナルのT5モデルアーキテクチャの概要は、以下の通りです。

プロパティ	詳細
モデルタイプ	Xl
訓練データ	Colossal, Cleaned version of Common Crawl (C4)

モデル	nl (el/dl)	ff	dm	kv	nh	#パラメータ
Tiny	4/4	1024	256	32	4	16M
Mini	4/4	1536	384	32	8	31M
Small	6/6	2048	512	32	8	60M
Base	12/12	3072	768	64	12	220M
Large	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

以下の略語が使用されています。

略語	定義
nl	トランスフォーマーブロックの数（深さ）
dm	埋め込みベクトルの次元（トランスフォーマーブロックの出力ベクトル）
kv	キー/バリュー投影行列の次元
nh	アテンションヘッドの数
ff	トランスフォーマーブロック内の中間ベクトルの次元（フィードフォワード投影行列のサイズ）
el	エンコーダ内のトランスフォーマーブロックの数（エンコーダの深さ）
dl	デコーダ内のトランスフォーマーブロックの数（デコーダの深さ）
sh	アテンションヘッドが共有されていることを示す
skv	キーバリュー投影行列が結合されていることを示す

モデルチェックポイントに特定のelまたはdlがない場合、エンコーダとデコーダの層の数は両方ともnlに対応します。

✨ 主な機能

Deep-Narrowアーキテクチャ：同じパラメータ数の他のモデルアーキテクチャと比較して、下流タスクのパフォーマンスに有利です。
事前学習済み：Colossal, Cleaned version of Common Crawl (C4)で事前学習されています。

📦 事前学習

このチェックポイントは、Colossal, Cleaned version of Common Crawl (C4)で524288ステップ、スパンベースのマスク言語モデリング（MLM）の目的で事前学習されました。

💻 使用例

微調整

注意: このモデルは事前学習済みのチェックポイントであり、実際の使用には微調整が必要です。このチェックポイントは英語で事前学習されているため、英語の自然言語処理タスクにのみ有用です。以下に、モデルを微調整する方法の例をいくつか示します。

PyTorch:

要約
質問応答
テキスト分類 - 注意: エンコーダ - デコーダモデルで動作させるために、ここでの学習例を少し調整する必要があります。

Tensorflow:

要約
テキスト分類 - 注意: エンコーダ - デコーダモデルで動作させるために、ここでの学習例を少し調整する必要があります。

JAX/Flax:

要約
テキスト分類 - 注意: エンコーダ - デコーダモデルで動作させるために、ここでの学習例を少し調整する必要があります。

📚 ドキュメント

このモデルチェックポイントについてより詳細な理解を得るために、読者は元の論文**Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers**を注意深く読むことを強くお勧めします。

このissueで説明されているように、shまたはskvモデルアーキテクチャのバリエーションを含むチェックポイントは、実用的な用途が限られており、詳細な説明が不足しているため、Transformersに移植されていません。これらのチェックポイントは、将来的に移植される可能性があるため、ここに保存されています。