t5-v1_1-baseオープンソーステキスト変換モデル - 無料で効率的なテキスト间変換を実現

ホーム

T5 V1 1 Base

googleによって開発

T5 1.1はGoogleが改良したテキストからテキストへの変換モデルで、GEGLU活性化関数と最適化されたアーキテクチャを採用し、教師なし事前学習に焦点を当てています

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #テキストからテキストへの統一フレームワーク #GEGLU活性化関数 #教師なし事前学習

ダウンロード数 150.73k

リリース時間 : 3/2/2022

モデル概要

改良版T5モデルで、アーキテクチャの最適化により転移学習の性能を向上させ、下流のNLPタスクに使用するにはファインチューニングが必要です

モデル特徴

GEGLU活性化関数

フィードフォワード隠れ層にReLUの代わりにGEGLUを採用し、モデルの表現力を向上させます

純粋な教師なし事前学習

C4データセットのみを使用して事前学習を行い、下流タスクのデータを混合しません

パラメータ共有の最適化

埋め込み層と分類器層のパラメータ共有を廃止し、モデルの柔軟性を向上させます

構造の最適化

xl/xxlサイズの次元設定を調整し、d_modelを増やし、アテンションヘッド数を減らします

モデル能力

テキスト生成

テキスト分類

質問応答システム

要約生成

機械翻訳

使用事例

テキスト生成

コンテンツ要約

長文書に対して簡潔な要約を生成します

CNN/Daily MailデータセットでSOTAを達成

質問応答システム

オープンドメインQA

テキスト知識に基づく自然言語質問に回答します

Natural Questionsベンチマークで優れた性能

🚀 GoogleのT5 Version 1.1

GoogleのT5 Version 1.1は、元のT5モデルに比べていくつかの改良点を備えており、自然言語処理タスクでの性能向上を目指しています。

🚀 クイックスタート

GoogleのT5 Version 1.1は、元のT5モデルに比べて以下の改善点を含んでいます。

✨ 主な機能

フィードフォワード隠れ層でReLUではなくGEGLU活性化関数を使用 - こちらを参照。
事前学習時にドロップアウトをオフにした（品質向上）。微調整時にはドロップアウトを再有効にする必要があります。
下流タスクを混合せず、C4のみで事前学習。
埋め込み層と分類器層の間でパラメータ共有を行わない。
"xl"と"xxl"が"3B"と"11B"を置き換えます。モデルの形状は少し異なり、d_modelが大きく、num_headsとd_ffが小さくなっています。

⚠️ 重要提示

T5 Version 1.1は、教師付き学習を含まず、C4のみで事前学習されています。したがって、このモデルは下流タスクで使用する前に微調整する必要があります。

事前学習データセット

その他のコミュニティチェックポイント

こちら

論文

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

著者

Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

📚 ドキュメント

概要

転移学習は、モデルをまずデータが豊富なタスクで事前学習し、その後下流タスクで微調整する手法であり、自然言語処理（NLP）において強力な技術として浮上しています。転移学習の有効性により、アプローチ、方法論、および実践が多様化しています。この論文では、すべての言語問題をテキスト対テキスト形式に変換する統一的なフレームワークを導入することで、NLPの転移学習技術の状況を探ります。体系的な研究により、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、およびその他の要素を数十の言語理解タスクで比較します。調査から得られた洞察をスケールと新しい「Colossal Clean Crawled Corpus」と組み合わせることで、要約、質問応答、テキスト分類などの多くのベンチマークで最先端の結果を達成します。NLPの転移学習に関する将来の研究を促進するために、データセット、事前学習モデル、およびコードを公開します。

モデル画像