T5-v1_1-xxlオープンソーステキスト変換モデル - 無料で純粋な教師なし戦略でテキスト変換を実現

ホーム

T5 V1 1 Xxl

googleによって開発

T5 1.1はGoogleが改良したテキストからテキストへの変換Transformerモデルで、GEGLU活性化関数と純粋な教師なし事前学習戦略を採用

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #テキストからテキストへの統一フレームワーク #GEGLU活性化関数 #純粋な教師なし事前学習

ダウンロード数 597.64k

リリース時間 : 3/2/2022

モデル概要

Transformerベースの統一テキスト処理フレームワークで、転移学習により様々なNLPタスクで優れた性能を実現

モデル特徴

GEGLU活性化関数

フィードフォワード隠れ層でReLUの代わりにGEGLUを使用し、モデルの表現力を向上

純粋な教師なし事前学習

C4データセットのみで教師なし事前学習を行い、下流タスクデータを混合しない

パラメータ分離戦略

埋め込み層と分類器層でパラメータを共有せず、モデルの柔軟性を向上

スケーラブルなアーキテクチャ調整

より大きなd_modelとより小さなnum_heads/d_ff比率で大規模モデルの性能を最適化

モデル能力

テキスト生成

テキスト分類

質問応答システム

要約生成

機械翻訳

テキスト書き換え

使用事例

テキスト要約

ニュース要約生成

長文記事をキー情報の要約に圧縮

CNN/Daily MailデータセットでSOTAを達成

インテリジェントQA

オープンドメインQA

テキスト内容に基づく自然言語質問に回答

Natural Questionsなどのベンチマークテストで優れた性能

テキスト分類

感情分析

テキストの感情傾向（ポジティブ/ネガティブ）を判断

GLUEベンチマークで競争力がある

🚀 [GoogleのT5 Version 1.1]

GoogleのT5 Version 1.1は、元のT5モデルに比べていくつかの改良を加えたモデルです。自然言語処理タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このモデルは、下流タスクで使用する前にファインチューニングする必要があります。事前学習データセットとしてC4を使用しています。

✨ 主な機能

GEGLU活性化関数：フィードフォワード隠れ層でReLUではなくGEGLU活性化関数を使用しています。詳細はこちらを参照してください。
ドロップアウトの調整：事前学習時にドロップアウトをオフにしています（品質向上）。ファインチューニング時にはドロップアウトを再度有効にする必要があります。
C4のみでの事前学習：下流タスクを混入せず、C4のみで事前学習を行っています。
パラメータ共有のない構造：埋め込み層と分類器層の間でパラメータを共有していません。
モデル形状の変更："xl"と"xxl"が"3B"と"11B"に代わりました。モデル形状は少し異なり、d_modelが大きく、num_headsとd_ffが小さくなっています。

📚 ドキュメント

Version 1.1の詳細

T5 Version 1.1は、元のT5モデルに比べて以下の改良点を含んでいます。

フィードフォワード隠れ層でReLUではなくGEGLU活性化関数を使用 - こちらを参照。
事前学習時にドロップアウトをオフにしています（品質向上）。ファインチューニング時にはドロップアウトを再度有効にする必要があります。
下流タスクを混入せず、C4のみで事前学習を行っています。
埋め込み層と分類器層の間でパラメータを共有していません。
"xl"と"xxl"が"3B"と"11B"に代わりました。モデル形状は少し異なり、d_modelが大きく、num_headsとd_ffが小さくなっています。

注意: T5 Version 1.1は、教師あり学習を含まず、C4のみで事前学習されています。したがって、このモデルは下流タスクで使用する前にファインチューニングする必要があります。事前学習データセット: C4

他のコミュニティチェックポイント: こちら

論文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

著者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

概要

転移学習は、モデルをまずデータが豊富なタスクで事前学習し、その後下流タスクでファインチューニングする手法であり、自然言語処理（NLP）において強力な技術として登場しています。転移学習の有効性により、アプローチ、方法論、および実践が多様化しています。この論文では、すべての言語問題をテキスト対テキスト形式に変換する統一的なフレームワークを導入することで、NLPの転移学習技術の状況を探ります。我々の体系的な研究では、事前学習の目的、アーキテクチャ、ラベルのないデータセット、転移アプローチ、およびその他の要因を数十の言語理解タスクで比較しています。我々の調査から得られた洞察を規模と新しい「Colossal Clean Crawled Corpus」と組み合わせることで、要約、質問応答、テキスト分類などの多くのベンチマークで最先端の結果を達成しています。NLPの転移学習に関する将来の研究を促進するために、我々はデータセット、事前学習モデル、およびコードを公開しています。

モデル画像