🚀 T5-Efficient-BASE-FF9000 (深度窄化バージョン)
T5-Efficient-BASE-FF9000は、GoogleのオリジナルT5のバリエーションであり、T5モデルアーキテクチャに従っています。これは事前学習のみのチェックポイントであり、論文**Efficient Scaling: Insights from Pre-training and Fine-tuning Transformers**とともに公開されました。論文の著者はYi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzlerです。
簡単に言うと、この論文では、パラメータ数が近い他のモデルアーキテクチャと比較して、深度窄化のモデルアーキテクチャが下流タスクでより優れた性能を発揮すると指摘されています。
論文の原文を引用します:
我々は通常、他の次元を統一的に拡張する前に、まずモデルの深度を増やす深度窄化戦略を推奨します。これは主に、論文の前半部分で示されたように、深度がパレートフロンティアに与える影響の程度によるものです。具体的には、高くて細い(深度が大きく、幅が狭い)モデルは通常、基礎モデルよりも効率的です。同様に、高くて細い基礎モデルは、大型モデルよりも効率的である可能性もあります。我々は一般的に、モデルのサイズに関係なく、層数が増えるにつれて絶対性能が向上する場合があっても、パレート効率の相対的なゲインは層数の増加とともに減少し、32から36層で収束する傾向があることを発見しました。最後に、ここで言う効率は、パラメータ数、浮動小数点演算回数(FLOPs)、またはスループット(速度)といったいずれかの計算次元に関連しています。我々は、3つの重要な効率指標(パラメータ数、FLOPs、速度)をすべて報告し、どの計算次元を考慮するかの選択は実務者に委ねています。
より正確には、モデルの深度は、順番に積み重ねられたTransformerブロックの数として定義されます。したがって、単語埋め込みシーケンスは、各Transformerブロックを順番に通過して処理されます。
✨ 主な機能
このモデルのチェックポイント - t5-efficient-base-ff9000 - は基礎モデルタイプに属し、以下のバリエーションを持ちます:
このモデルには4.4942億個のパラメータがあり、全精度(fp32)では約1797.7 MBのメモリが必要で、半精度(fp16 または bf16)では898.85 MBのメモリが必要です。
以下はオリジナルのT5モデルアーキテクチャの概要です:
モデル |
nl (el/dl) |
ff |
dm |
kv |
nh |
パラメータ数 |
ミニ(Tiny) |
4/4 |
1024 |
256 |
32 |
4 |
1600万 |
ミニ(Mini) |
4/4 |
1536 |
384 |
32 |
8 |
3100万 |
スモール(Small) |
6/6 |
2048 |
512 |
32 |
8 |
6000万 |
ベース(Base) |
12/12 |
3072 |
768 |
64 |
12 |
2.2億 |
ラージ(Large) |
24/24 |
4096 |
1024 |
64 |
16 |
7.38億 |
超大(Xl) |
24/24 |
16384 |
1024 |
128 |
32 |
30億 |
超超大(XXl) |
24/24 |
65536 |
1024 |
128 |
128 |
110億 |
以下は使用される略語の説明です:
略語 |
定義 |
nl |
Transformerブロックの数(深度) |
dm |
埋め込みベクトルの次元(Transformerブロックの出力ベクトル) |
kv |
キー/値投影行列の次元 |
nh |
アテンションヘッドの数 |
ff |
Transformerブロック内の中間ベクトルの次元(フィードフォワード投影行列のサイズ) |
el |
エンコーダのTransformerブロックの数(エンコーダの深度) |
dl |
デコーダのTransformerブロックの数(デコーダの深度) |
sh |
アテンションヘッドが共有されていることを示す |
skv |
キー値投影行列が束縛されていることを示す |
モデルのチェックポイントに特定の el または dl がない場合、エンコーダ層とデコーダ層の数はどちらも nl に対応します。
📚 ドキュメント
事前学習
このチェックポイントは、大規模クリーニング版汎用クローラデータ(C4)上で524288ステップの事前学習を行い、スパンベースのマスク言語モデリング(MLM)目標を採用しています。
微調整
⚠️ 重要な注意事項
このモデルは事前学習のチェックポイントであり、実際に使用するには微調整が必要です。このチェックポイントは英語で事前学習されているため、英語の自然言語処理タスクにのみ適用されます。
このモデルを微調整するには、以下の例を参考にすることができます:
PyTorch:
Tensorflow:
- テキスト要約
- テキスト分類 - 注意:ここの学習例をエンコーダ - デコーダモデルに適合させるためにいくつかの微調整が必要です。
JAX/Flax:
- テキスト要約
- テキスト分類 - 注意:ここの学習例をエンコーダ - デコーダモデルに適合させるためにいくつかの微調整が必要です。
詳細情報
我々は、読者にこのモデルのチェックポイントについてより深く理解するために、元の論文**Efficient Scaling: Insights from Pre-training and Fine-tuning Transformers**をよく読むことを強くお勧めします。この問題で説明されているように、sh または skv モデルアーキテクチャのバリエーションを含むチェックポイントは、実際の用途が限られており、詳細な説明が不足しているため、Transformersライブラリに移植されていません。これらのチェックポイントはここに保存されており、将来的に移植される可能性があります。
🔧 技術詳細
正確には、モデルの深度は、順番に積み重ねられたTransformerブロックの数として定義されます。単語埋め込みシーケンスは、各Transformerブロックを順番に通過して処理されます。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスを採用しています。