T5-11Bオープンソーステキスト変換モデル - 無料で利用可能、複数の自然言語処理タスクをサポート

ホーム

T5 11b

google-t5によって開発

T5-11BはGoogleが開発したテキストからテキストへの変換Transformerモデルで、110億のパラメータを持ち、様々なNLPタスクをサポートします。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #テキストからテキストへの統一フレームワーク #110億パラメータの大規模モデル #多タスク転移学習

ダウンロード数 147.63k

リリース時間 : 3/2/2022

モデル概要

T5-11Bは統一されたテキストからテキストへの変換モデルで、機械翻訳、文書要約、質問応答、分類タスクなど、様々な自然言語処理タスクを処理できます。

モデル特徴

統一されたテキストからテキストへのフレームワーク

T5はすべてのNLPタスクを統一されたテキストからテキストへの形式に再構築し、入力と出力は常にテキスト文字列です。

多タスク学習

このモデルは教師なしと教師ありタスクの多タスク混合で事前学習されており、様々なNLPタスクをサポートします。

大規模事前学習

このモデルはColossal Clean Crawled Corpus (C4)で事前学習されており、データ量は膨大で多様です。

モデル能力

テキスト生成

テキスト分類

質問応答

機械翻訳

文書要約

感情分析

使用事例

自然言語処理

機械翻訳

ある言語のテキストを別の言語に翻訳します。

文書要約

長い文書の短い要約を生成します。

質問応答システム

ユーザーが提出した質問に回答します。

テキスト分析

感情分析

テキストの感情傾向（肯定的、否定的、中立的）を分析します。

テキスト分類

テキストを事前定義されたカテゴリに分類します。

🚀 T5 11Bモデルカード

モデル画像

T5 11Bは、110億のパラメータを持つ言語モデルです。このモデルは、様々な自然言語処理タスクに対応し、統一的なテキスト-to-テキスト形式で入出力を行います。

🚀 クイックスタート

✨ 主な機能

モデルの詳細

モデルの説明

Text-To-Text Transfer Transformer (T5) の開発者はこちらで次のように述べています。

T5では、すべての自然言語処理タスクを統一的なテキスト-to-テキスト形式に再構築することを提案しています。この形式では、入力と出力は常にテキスト文字列であり、クラスラベルや入力のスパンのみを出力できるBERTスタイルのモデルとは対照的です。私たちのテキスト-to-テキストフレームワークにより、任意の自然言語処理タスクで同じモデル、損失関数、ハイパーパラメータを使用することができます。

T5-11Bは、110億のパラメータを持つチェックポイントです。

開発者: Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。詳細は関連論文と GitHubリポジトリを参照してください。
モデルの種類: 言語モデル
言語: 英語、フランス語、ルーマニア語、ドイツ語
ライセンス: Apache 2.0
関連モデル: すべてのT5チェックポイント
詳細情報のリソース:

属性	详情
モデルの種類	言語モデル
学習データ	Colossal Clean Crawled Corpus (C4) など

用途

直接的な用途と下流の用途

開発者はブログ記事で、このモデルについて次のように述べています。

私たちのテキスト-to-テキストフレームワークにより、機械翻訳、文書要約、質問応答、分類タスク（例：感情分析）など、任意の自然言語処理タスクで同じモデル、損失関数、ハイパーパラメータを使用することができます。数値そのものではなく数値の文字列表現を予測するようにモデルを訓練することで、回帰タスクにも適用することができます。

詳細はブログ記事と研究論文を参照してください。

想定外の用途

詳細情報が必要です。

バイアス、リスク、制限事項

詳細情報が必要です。

推奨事項

詳細情報が必要です。

学習の詳細

学習データ

このモデルは、Colossal Clean Crawled Corpus (C4) で事前学習されています。このデータセットは、T5と同じ研究論文の文脈で開発および公開されました。

このモデルは、教師なしタスク (1.) と教師ありタスク (2.) のマルチタスク混合 で事前学習されています。この際、(1.) と (2.) には以下のデータセットが使用されています。

教師なしノイズ除去目的で使用されるデータセット

C4
Wiki-DPR

教師ありテキスト-to-テキスト言語モデリング目的で使用されるデータセット

文の受容性判断
- CoLA Warstadt et al., 2018
感情分析
- SST-2 Socher et al., 2013
言い換え/文の類似性
- MRPC Dolan and Brockett, 2005
- STS-B Ceret al., 2017
- QQP Iyer et al., 2017
自然言語推論
- MNLI Williams et al., 2017
- QNLI Rajpurkar et al.,2016
- RTE Dagan et al., 2005
- CB De Marneff et al., 2019
文の完成
- COPA Roemmele et al., 2011
単語の意味曖昧性解消
- WIC Pilehvar and Camacho-Collados, 2018
質問応答
- MultiRC Khashabi et al., 2018
- ReCoRD Zhang et al., 2018
- BoolQ Clark et al., 2019

学習手順

モデルの開発者は概要で次のように述べています。

この論文では、すべての言語問題をテキスト-to-テキスト形式に変換する統一的なフレームワークを導入することで、自然言語処理の転移学習技術の領域を探索します。私たちの体系的な研究では、数十の言語理解タスクにおいて、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、その他の要素を比較しています。

導入されたフレームワークであるT5フレームワークには、論文で研究されたアプローチを統合した学習手順が含まれています。詳細は研究論文を参照してください。

評価

テストデータ、要因、指標

開発者は、24のタスクでモデルを評価しました。詳細は研究論文を参照してください。

結果

T5-11Bの完全な結果については、研究論文の表14を参照してください。

環境への影響

炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。

ハードウェアの種類: Google Cloud TPU Pods
使用時間: 詳細情報が必要です
クラウドプロバイダー: GCP
コンピュートリージョン: 詳細情報が必要です
排出された炭素量: 詳細情報が必要です

引用

BibTeX:

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA:

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.

モデルカードの作成者

このモデルカードは、Hugging Faceのチームによって作成されました。

モデルの使い方

免責事項

transformers v3.5.0 以前 は、t5-11b はその巨大なサイズのため、特別な処理が必要でした。 transformers <= v3.4.0 を使用している場合、t5-11b は次のように use_cdn フラグを False に設定してロードする必要があります。

t5 = transformers.T5ForConditionalGeneration.from_pretrained('t5-11b', use_cdn = False)

また、単一のGPUではモデルをメモリにロードするのに十分なメモリがない可能性が高いです。モデルの重みだけで40GBを超えるためです。

この問題を解決するには、このPR で説明されているように、モデル並列化を使用する必要があります。
この投稿で説明されているように、DeepSpeedのZeRO-Offloadも別のアプローチです。

詳細については、Hugging Face T5 のドキュメントと、モデルの開発者によって作成された Colabノートブックを参照してください。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

T5 11b

モデル概要

モデル特徴

モデル能力

使用事例

🚀 T5 11Bモデルカード

🚀 クイックスタート

目次

✨ 主な機能

モデルの詳細

モデルの説明

用途

直接的な用途と下流の用途

想定外の用途

バイアス、リスク、制限事項

推奨事項

学習の詳細

学習データ

学習手順

評価

テストデータ、要因、指標

結果

環境への影響

引用

モデルカードの作成者

モデルの使い方

免責事項