t5-base-lm-adaptオープンソーステキスト生成モデル - 最適化と効率化を図り、素晴らしいテキスト創作を実現

ホーム

T5 Base Lm Adapt

googleによって開発

T5 V1.1言語モデル適合版はT5アーキテクチャを改良したテキスト生成モデルで、GEGLU活性化関数と言語モデリングの目的を最適化することで、プロンプトチューニングの効果を大幅に向上させます。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #GEGLU活性化関数 #ノイズ除去と言語モデリングの統合事前学習 #ゼロショットプロンプトチューニングの最適化

ダウンロード数 1,062

リリース時間 : 3/2/2022

モデル概要

このモデルはT5基礎版の改良版で、テキスト-to-テキスト変換タスクに特化しており、アーキテクチャの最適化と学習目標の調整により言語モデリング能力を向上させています。

モデル特徴

GEGLU活性化関数

フィードフォワード隠れ層では、元のReLUの代わりにGEGLU活性化関数を採用し、モデルの表現能力を向上させます。

Dropoutなしの事前学習

事前学習段階ではDropoutメカニズムを無効にし、モデルの品質を向上させます。微調整時には再度有効にする必要があります。

二つの目標での学習

ノイズ除去と言語モデリングの目標を同時に用いて事前学習を行い、言語理解能力を強化します。

パラメータの最適化

モデルの次元構造を調整し、d_model次元を拡大し、アテンションヘッドとフィードフォワード層の次元を減らします。

モデル能力

テキスト生成

テキスト変換

言語モデリング

プロンプトチューニング

転移学習

使用事例

テキスト生成

自動要約

長いテキストを簡潔な要約に圧縮します。

要約生成のベンチマークテストで最先端の成果を達成しました。

質問応答システム

テキスト内容に基づいて質問に答えます。

複数の質問応答タスクで優れた性能を発揮します。

テキスト変換

テキスト分類

入力テキストを事前定義されたカテゴリに分類します。

テキスト分類のベンチマークで最先端のレベルに達しました。

言語翻訳

言語間のテキスト変換を実現します。

複数の言語の翻訳タスクをサポートします。

🚀 GoogleのT5 Version 1.1 - LM適応版

このモデルは、自然言語処理における転移学習の枠組みを提供し、様々な言語タスクをテキスト-to-テキスト形式に変換することで、多くのベンチマークで最先端の結果を達成します。

🚀 クイックスタート

このセクションでは、GoogleのT5 Version 1.1 - LM適応版モデルの概要と主な改良点を紹介します。

✨ 主な機能

Version 1.1 - LM適応版

T5 Version 1.1 - LM適応版は、元の T5モデルと比較して、以下の改良点があります。

フィードフォワード隠れ層でReLUではなくGEGLU活性化関数を使用 - こちらを参照。
事前学習でドロップアウトをオフにしました（品質向上）。微調整時にはドロップアウトを再度有効にする必要があります。
下流タスクを混入せずにC4のみで事前学習。
埋め込み層と分類器層の間でパラメータ共有を行わない。
"xl" と "xxl" が "3B" と "11B" を置き換えます。モデルの形状は少し異なり、d_model が大きく、num_heads と d_ff が小さくなります。

また、このモデルはノイズ除去と言語モデリングの両方の目的で事前学習されています。

具体的には、このチェックポイントは T5 Version 1.1 - Base から初期化され、T5論文で議論されているLM目的でさらに10万ステップ学習されます。この適応により、モデルのプロンプトチューニングでの使用能力が向上します。

注意: T5 Version 1.1 - LM適応版 モデルの人気のある微調整版は BigScienceのT0pp です。

事前学習データセット: C4

他のコミュニティチェックポイント: こちら

論文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

著者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

📚 ドキュメント

概要

転移学習は、モデルをまずデータが豊富なタスクで事前学習し、その後下流タスクで微調整する手法で、自然言語処理（NLP）において強力な技術として浮上しています。転移学習の有効性により、様々なアプローチ、方法論、実践が生まれています。この論文では、すべての言語問題をテキスト-to-テキスト形式に変換する統一的な枠組みを導入することで、NLPの転移学習技術の状況を探求します。体系的な研究で、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、その他の要素を数十の言語理解タスクで比較します。探求から得られた洞察と規模、新しい「Colossal Clean Crawled Corpus」を組み合わせることで、要約、質問応答、テキスト分類などの多くのベンチマークで最先端の結果を達成します。NLPの転移学習に関する将来の研究を促進するために、データセット、事前学習モデル、コードを公開します。

モデル画像