t5-xl-lm-adaptオープンソース言語モデル - 言語モデリングタスク用に最適化された実用的なツール

ホーム

T5 Xl Lm Adapt

googleによって開発

T5 1.1言語モデル適合版は、元のT5モデルを改良したバージョンで、GEGLU活性化関数を採用し、パラメータ共有を廃止し、言語モデリングタスクに特化して最適化されています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #GEGLU活性化関数 #ノイズ除去と言語モデリングの二重目標 #プロンプトチューニング最適化

ダウンロード数 1,111

リリース時間 : 3/2/2022

モデル概要

このモデルはT5アーキテクチャの改良版で、言語モデリングタスクに特化して適合されており、活性化関数と学習戦略を改良することでプロンプトチューニング能力を向上させています。

モデル特徴

GEGLU活性化関数

フィードフォワード隠れ層ではReLUの代わりにGEGLU活性化関数を採用し、モデルの表現能力を向上させます。

無Dropout事前学習

事前学習段階ではDropoutを無効にして品質を向上させ、微調整時には再度有効にする必要があります。

純粋なC4データセット学習

事前学習にはC4データセットのみを使用し、下流タスクのデータを混合せず、学習の一貫性を保ちます。

パラメータ解耦

埋め込み層と分類器層のパラメータ共有を廃止し、モデルの柔軟性を高めます。

二重目標事前学習

ノイズ除去と言語モデリングの両方の目標に基づいて事前学習を行います。

モデル能力

テキスト生成

テキスト理解

転移学習

プロンプトチューニング

ゼロショット学習

使用事例

自然言語処理

テキスト要約

入力テキストの簡潔な要約を生成します。

複数の要約ベンチマークテストでSOTAを達成しました。

質問応答システム

与えられた文脈に基づいて質問に答えます。

複数の質問応答タスクで優れた成績を収めました。

テキスト分類

テキストを複数のカテゴリに分類します。

GLUEなどのベンチマークテストで良好な成績を得ました。

プロンプトエンジニアリング

ゼロショット学習

自然言語プロンプトを通じて見たことのないタスクを実行します。

言語モデリング目標に適合させた後、プロンプトチューニング能力が大幅に向上しました。

🚀 [GoogleのT5（バージョン1.1 - LM適合）]

GoogleのT5バージョン1.1 - LM適合モデルは、元のT5モデルに基づいて複数の改良を行い、さまざまな自然言語処理タスクに適用でき、モデルのプロンプトチューニング能力を向上させました。

🚀 クイックスタート

このプロジェクトでは、GoogleのT5 バージョン1.1 - LM適合モデルに関する情報を紹介しています。

✨ 主な機能

元のT5モデルと比較した改良点

T5バージョン1.1 - LM適合は、元の T5モデルと比較して、以下の改良点があります。

フィードフォワード隠れ層では、ReLUではなくGEGLU活性化関数を使用しています。詳細はこちらを参照してください。
事前学習時にはDropoutをオフにしています（品質が向上します）。微調整時にはDropoutを再度有効にする必要があります。
C4データセットのみで事前学習を行っており、下流タスクを混入していません。
埋め込み層と分類器層の間でパラメータを共有していません。
“3B” と “11B” の代わりに “xl” と “xxl” を使用しています。モデルの形状は若干異なり、d_model が大きく、num_heads と d_ff が小さくなっています。

また、このモデルはノイズ除去と言語モデリングの目的で事前学習されています。

モデルの初期化と学習

このチェックポイントは T5バージョン1.1 - XL から初期化され、T5論文で議論されている言語モデリングの目的でさらに100Kステップ学習されました。この適合により、モデルのプロンプトチューニング能力が向上しました。

📚 ドキュメント

事前学習データセット

その他のコミュニティチェックポイント

こちら

著者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

概要

転移学習は強力な自然言語処理（NLP）技術であり、データが豊富なタスクでモデルを事前学習し、その後下流タスクで微調整します。転移学習の有効性により、さまざまな方法、手法、実践が生まれています。この論文では、すべての言語問題をテキストからテキストへの形式に変換する統一的なフレームワークを導入することで、NLP転移学習技術の領域を探索しました。私たちの体系的な研究では、数十の言語理解タスクで事前学習の目的、アーキテクチャ、無ラベルデータセット、転移方法、その他の要素を比較しました。私たちの探索結果を規模と新しい「巨大なクリーンなクロールコーパス」と組み合わせることで、要約、質問応答、テキスト分類などを含む多くのベンチマークで最先端の結果を達成しました。将来のNLP転移学習の研究を促進するために、データセット、事前学習モデル、コードを公開しています。