🚀 T5 11Bモデルカード

T5 11Bは、110億のパラメータを持つ言語モデルです。このモデルは、様々な自然言語処理タスクに対応し、統一的なテキスト-to-テキスト形式で入出力を行います。
🚀 クイックスタート
目次
- モデルの詳細
- 用途
- バイアス、リスク、制限事項
- 学習の詳細
- 評価
- 環境への影響
- 引用
- モデルカードの作成者
- モデルの使い方
✨ 主な機能
モデルの詳細
モデルの説明
Text-To-Text Transfer Transformer (T5) の開発者は こちら で次のように述べています。
T5では、すべての自然言語処理タスクを統一的なテキスト-to-テキスト形式に再構築することを提案しています。この形式では、入力と出力は常にテキスト文字列であり、クラスラベルや入力のスパンのみを出力できるBERTスタイルのモデルとは対照的です。私たちのテキスト-to-テキストフレームワークにより、任意の自然言語処理タスクで同じモデル、損失関数、ハイパーパラメータを使用することができます。
T5-11Bは、110億のパラメータを持つチェックポイントです。
- 開発者: Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。詳細は 関連論文 と GitHubリポジトリ を参照してください。
- モデルの種類: 言語モデル
- 言語: 英語、フランス語、ルーマニア語、ドイツ語
- ライセンス: Apache 2.0
- 関連モデル: すべてのT5チェックポイント
- 詳細情報のリソース:
属性 |
详情 |
モデルの種類 |
言語モデル |
学習データ |
Colossal Clean Crawled Corpus (C4) など |
用途
直接的な用途と下流の用途
開発者は ブログ記事 で、このモデルについて次のように述べています。
私たちのテキスト-to-テキストフレームワークにより、機械翻訳、文書要約、質問応答、分類タスク(例:感情分析)など、任意の自然言語処理タスクで同じモデル、損失関数、ハイパーパラメータを使用することができます。数値そのものではなく数値の文字列表現を予測するようにモデルを訓練することで、回帰タスクにも適用することができます。
詳細は ブログ記事 と 研究論文 を参照してください。
想定外の用途
詳細情報が必要です。
バイアス、リスク、制限事項
詳細情報が必要です。
推奨事項
詳細情報が必要です。
学習の詳細
学習データ
このモデルは、Colossal Clean Crawled Corpus (C4) で事前学習されています。このデータセットは、T5と同じ 研究論文 の文脈で開発および公開されました。
このモデルは、教師なしタスク (1.) と教師ありタスク (2.) のマルチタスク混合 で事前学習されています。
この際、(1.) と (2.) には以下のデータセットが使用されています。
- 教師なしノイズ除去目的で使用されるデータセット
- 教師ありテキスト-to-テキスト言語モデリング目的で使用されるデータセット
- 文の受容性判断
- 感情分析
- 言い換え/文の類似性
- 自然言語推論
- 文の完成
- 単語の意味曖昧性解消
- 質問応答
学習手順
モデルの開発者は 概要 で次のように述べています。
この論文では、すべての言語問題をテキスト-to-テキスト形式に変換する統一的なフレームワークを導入することで、自然言語処理の転移学習技術の領域を探索します。私たちの体系的な研究では、数十の言語理解タスクにおいて、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、その他の要素を比較しています。
導入されたフレームワークであるT5フレームワークには、論文で研究されたアプローチを統合した学習手順が含まれています。詳細は 研究論文 を参照してください。
評価
テストデータ、要因、指標
開発者は、24のタスクでモデルを評価しました。詳細は 研究論文 を参照してください。
結果
T5-11Bの完全な結果については、研究論文 の表14を参照してください。
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
- ハードウェアの種類: Google Cloud TPU Pods
- 使用時間: 詳細情報が必要です
- クラウドプロバイダー: GCP
- コンピュートリージョン: 詳細情報が必要です
- 排出された炭素量: 詳細情報が必要です
引用
BibTeX:
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA:
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
モデルカードの作成者
このモデルカードは、Hugging Faceのチームによって作成されました。
モデルの使い方
免責事項
transformers
v3.5.0 以前 は、t5-11b
はその巨大なサイズのため、特別な処理が必要でした。
transformers <= v3.4.0
を使用している場合、t5-11b
は次のように use_cdn
フラグを False
に設定してロードする必要があります。
t5 = transformers.T5ForConditionalGeneration.from_pretrained('t5-11b', use_cdn = False)
また、単一のGPUではモデルをメモリにロードするのに十分なメモリがない可能性が高いです。モデルの重みだけで40GBを超えるためです。
- この問題を解決するには、このPR で説明されているように、モデル並列化を使用する必要があります。
- この投稿 で説明されているように、DeepSpeedのZeRO-Offloadも別のアプローチです。
詳細については、Hugging Face T5 のドキュメントと、モデルの開発者によって作成された Colabノートブック を参照してください。