オープンソースT5-XXL-LM-ADAPT言語モデル - 言語モデリングの最適化とプロンプトチューニング効果の向上

ホーム

T5 Xxl Lm Adapt

googleによって開発

T5バージョン1.1のLM適応版はT5アーキテクチャに基づく大規模言語モデルで、言語モデリング目標に最適化され、プロンプトチューニングにおける性能が向上しています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #テキストからテキストへの変換 #マルチタスク学習 #言語モデル適応

ダウンロード数 61

リリース時間 : 3/2/2022

モデル概要

このモデルはT5バージョン1.1の改良版で、言語モデリング目標による追加トレーニングを通じて、テキスト生成と理解能力が強化され、様々なNLPタスクに適しています。

モデル特徴

GEGLU活性化関数

feed-forward隠れ層でReLUではなくGEGLU活性化関数を使用することで、モデルの性能が向上しました。

言語モデリング適応

言語モデリング目標に対して100Kステップの追加トレーニングを行い、プロンプトチューニング能力を強化しました。

ドロップアウトなしの事前学習

より高品質を得るため、事前学習段階でドロップアウトを無効にしており、ファインチューニング時には再度有効にする必要があります。

独立パラメータ設計

埋め込み層と分類器層でパラメータを共有しない設計により、モデルの柔軟性が向上しました。

モデル能力

テキスト生成

テキスト理解

質問応答システム

要約生成

テキスト分類

機械翻訳

使用事例

テキスト生成

コンテンツ作成

記事、ストーリー、その他のクリエイティブなテキストコンテンツを自動生成

質問応答システム

インテリジェントカスタマーサポート

ユーザーの質問を理解し回答できるカスタマーサポートシステムを構築

テキスト要約

ニュース要約

長文記事の簡潔な要約を自動生成

🚀 GoogleのT5バージョン1.1 - LM適応版

GoogleのT5 バージョン1.1 - LM適応版は、転移学習における自然言語処理の性能向上に貢献するモデルです。元のT5モデルに比べていくつかの改良が施されており、プロンプトチューニングにも適しています。

🚀 クイックスタート

このモデルは、事前学習とファインチューニングを通じて、様々な自然言語処理タスクに適用できます。以下に、主な特徴や事前学習の詳細を説明します。

✨ 主な機能

改良点

T5 Version 1.1 - LM Adapted は、元の T5モデルと比較して、以下の改良点を備えています。

フィードフォワード隠れ層でGEGLU活性化関数を使用しており、ReLUではなくなっています - こちらを参照。
事前学習時にドロップアウトをオフにしています（品質向上）。ファインチューニング時にはドロップアウトを再度有効にする必要があります。
事前学習はC4のみで行われ、下流タスクを混ぜていません。
埋め込み層と分類器層の間でパラメータ共有を行っていません。
"xl" と "xxl" が "3B" と "11B" を置き換えています。モデルの形状は少し異なり、d_model が大きく、num_heads と d_ff が小さくなっています。

また、このモデルはノイズ除去と言語モデリングの両方の目的で事前学習されています。

チェックポイントの詳細

このチェックポイントは T5 Version 1.1 - XXL から初期化され、T5論文で議論されているLM目的でさらに100Kステップ学習されています。この適応により、モデルのプロンプトチューニング能力が向上しています。

事前学習データセット

事前学習データセット: C4

その他のコミュニティチェックポイント

その他のコミュニティチェックポイント: こちら

論文

論文: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

著者

著者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu

📚 ドキュメント

概要

転移学習は、モデルをまずデータが豊富なタスクで事前学習し、その後下流タスクで微調整する手法であり、自然言語処理（NLP）において強力な技術として浮上しています。転移学習の有効性により、様々なアプローチ、方法論、実践が生まれています。この論文では、すべての言語問題をテキスト対テキスト形式に変換する統一的なフレームワークを導入することで、NLPの転移学習技術の状況を探ります。体系的な研究により、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、その他の要素を数十の言語理解タスクで比較します。調査から得られた洞察とスケール、新しい「Colossal Clean Crawled Corpus」を組み合わせることで、要約、質問応答、テキスト分類などの多くのベンチマークで最先端の結果を達成します。NLPの転移学習に関する将来の研究を促進するために、データセット、事前学習モデル、コードを公開しています。