t5-large-lm-adaptオープンソーステキスト生成モデル - 追加学習によりプロンプトチューニング能力を向上

ホーム

T5 Large Lm Adapt

googleによって開発

T5バージョン1.1のLM適応版は、T5アーキテクチャを改良したテキスト生成モデルで、言語モデリング目標の追加トレーニングにより、プロンプトチューニング能力が向上しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #テキストからテキストへの変換 #GEGLU活性化関数 #教師なし事前学習

ダウンロード数 501

リリース時間 : 3/2/2022

モデル概要

このモデルはT5バージョン1.1の改良版で、言語モデリング目標に特化して適応トレーニングされており、様々なテキスト生成および理解タスクに適しています。

モデル特徴

GEGLU活性化関数

feed-forward隠れ層でReLUの代わりにGEGLU活性化関数を使用し、モデル性能を向上させています。

Dropoutなしの事前学習

品質向上のため、事前学習段階でDropoutを無効にし、ファインチューニング時に再度有効にします。

純粋なC4データセットでの事前学習

C4データセットのみで事前学習を行い、下流タスクデータを混合せず、トレーニングデータの純粋性を保っています。

パラメータ分離

埋め込み層と分類器層の間でパラメータ共有を行わず、モデルの柔軟性を高めています。

改良されたモデル構造

より大きな`d_model`とより小さな`num_heads`および`d_ff`を採用し、モデル性能を最適化しています。

モデル能力

テキスト生成

テキスト理解

質問応答システム

要約生成

テキスト分類

使用事例

自然言語処理

プロンプトチューニング

言語モデリング目標の追加トレーニングにより、モデルはプロンプトチューニングタスクでより優れた性能を発揮します。

プロンプトチューニング効果の向上

テキスト生成

一貫性があり文脈に沿ったテキストの生成に適しています。

高品質なテキストの生成

質問応答システム

テキストに基づく質問に答える質問応答システムの構築に使用できます。

ユーザーの質問に正確に回答

🚀 GoogleのT5 Version 1.1 - LM適応版

このモデルは、自然言語処理における転移学習の枠組みを提供し、様々な言語タスクに適用可能です。T5 Version 1.1 - LM適応版は、元のT5モデルに比べていくつかの改良点を備えており、プロンプトチューニングにも適しています。

🚀 クイックスタート

GoogleのT5 Version 1.1 - LM適応版について説明します。

✨ 主な機能

Version 1.1 - LM適応版

T5 Version 1.1 - LM適応版は、元の T5モデルと比較して、以下の改良点を含んでいます。

フィードフォワード隠れ層でGEGLU活性化関数を使用し、ReLUではなくなりました - こちらを参照。
事前学習時にドロップアウトをオフにしました（品質向上）。微調整時にはドロップアウトを再度有効にする必要があります。
下流タスクを混入せず、C4のみで事前学習を行いました。
埋め込み層と分類器層の間でパラメータ共有を行っていません。
"xl" と "xxl" が "3B" と "11B" を置き換えました。モデルの形状は少し異なり、d_model が大きく、num_heads と d_ff が小さくなっています。

また、このモデルはノイズ除去と言語モデリングの両方の目的で事前学習されています。

具体的には、このチェックポイントは T5 Version 1.1 - Large から初期化され、T5論文で議論されているLM目的でさらに100Kステップの学習が行われています。この適応により、モデルのプロンプトチューニングでの使用能力が向上しています。

注意: T5 Version 1.1 - LM適応版 モデルの人気のある微調整版は BigScienceのT0pp です。

事前学習データセット: C4

その他のコミュニティチェックポイント: こちら

論文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

著者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

📚 ドキュメント

概要

転移学習は、モデルをまずデータが豊富なタスクで事前学習し、その後下流タスクで微調整する手法として、自然言語処理（NLP）において強力な技術として浮上しています。転移学習の有効性により、アプローチ、方法論、および実践の多様性が生まれています。この論文では、すべての言語問題をテキスト対テキスト形式に変換する統一的な枠組みを導入することで、NLPの転移学習技術の状況を探ります。我々の体系的な研究では、数十の言語理解タスクにおいて、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、およびその他の要素を比較しています。我々の調査から得られた洞察を規模と新しい「Colossal Clean Crawled Corpus」と組み合わせることで、要約、質問応答、テキスト分類などの多くのベンチマークで最先端の結果を達成しています。NLPの転移学習に関する将来の研究を促進するために、我々はデータセット、事前学習モデル、およびコードを公開しています。

モデル画像