T5-baseオープンソースモデル - 多言語NLPタスクをサポートする無料のテキスト変換ツール

ホーム

T5 Base

google-t5によって開発

T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #多タスク統一フレームワーク #多言語翻訳 #テキスト要約生成

ダウンロード数 5.4M

リリース時間 : 3/2/2022

モデル概要

T5ベーシック版は統一されたテキスト-to-テキスト変換フレームワークで、翻訳、要約、質問応答などのさまざまな自然言語処理タスクを処理することができます。

モデル特徴

統一テキスト-to-テキストフレームワーク

すべてのNLPタスクは統一されたテキスト-to-テキスト形式に再構築され、同じモデルアーキテクチャと学習方法が使用されます。

多タスク学習

モデルは教師なしタスクと教師ありタスクの混合で事前学習され、汎化能力が強化されます。

多言語サポート

英語、フランス語、ルーマニア語、ドイツ語などのさまざまな言語の処理タスクをサポートしています。

モデル能力

テキスト生成

機械翻訳

文書要約

質問応答システム

感情分析

自然言語推論

使用事例

テキスト処理

文書要約

長い文書を自動的に簡潔な要約に圧縮します。

機械翻訳

サポートされている言語間でテキストを翻訳します。

質問応答システム

オープンドメイン質問応答

テキスト内容に基づく質問に回答します。

🚀 T5 Base モデルカード

Text-To-Text Transfer Transformer (T5) は、様々な自然言語処理タスクを統一的なテキスト対テキスト形式で扱えるモデルです。T5-Base は、2億2000万のパラメータを持つチェックポイントで、多言語対応の言語モデルです。

🚀 クイックスタート

以下のコードを使用して、モデルを使い始めることができます。

クリックして展開

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5Model.from_pretrained("t5-base")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

詳細な例については、Hugging Face T5 のドキュメントと、モデル開発者によって作成された Colab Notebook を参照してください。

✨ 主な機能

開発者によると、T5 のテキスト対テキストフレームワークにより、機械翻訳、文書要約、質問応答、分類タスク（例：感情分析）など、あらゆる自然言語処理タスクに同じモデル、損失関数、ハイパーパラメータを使用できます。また、数値の文字列表現を予測するように訓練することで、回帰タスクにも適用できます。

📦 インストール

このセクションでは、インストールに関する具体的な手順が提供されていません。

💻 使用例

上記の「クイックスタート」セクションにコード例があります。

基本的な使用法

from transformers import T5Tokenizer, T5Model

tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5Model.from_pretrained("t5-base")

input_ids = tokenizer(
    "Studies have been shown that owning a dog is good for you", return_tensors="pt"
).input_ids  # Batch size 1
decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

# forward pass
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state

📚 ドキュメント

モデル詳細

モデル説明

Text-To-Text Transfer Transformer (T5) の開発者は、以下のように述べています。

T5 では、すべての自然言語処理タスクを統一的なテキスト対テキスト形式に再構築することを提案しています。この形式では、入力と出力は常にテキスト文字列であり、クラスラベルまたは入力のスパンのみを出力できる BERT スタイルのモデルとは対照的です。私たちのテキスト対テキストフレームワークにより、任意の自然言語処理タスクで同じモデル、損失関数、ハイパーパラメータを使用できます。

T5-Base は、2億2000万のパラメータを持つチェックポイントです。

開発者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu。関連論文と GitHub リポジトリを参照してください。
モデルタイプ: 言語モデル
言語: 英語、フランス語、ルーマニア語、ドイツ語
ライセンス: Apache 2.0
関連モデル: すべての T5 チェックポイント
詳細情報のリソース:

用途

直接的な使用と下流の使用

開発者は、ブログ記事で、このモデルについて以下のように書いています。

私たちのテキスト対テキストフレームワークにより、機械翻訳、文書要約、質問応答、分類タスク（例：感情分析）など、あらゆる自然言語処理タスクに同じモデル、損失関数、ハイパーパラメータを使用できます。また、数値の文字列表現を予測するように訓練することで、回帰タスクにも適用できます。

詳細については、ブログ記事と研究論文を参照してください。

範囲外の使用

詳細情報が必要です。

バイアス、リスク、制限事項

詳細情報が必要です。

推奨事項

詳細情報が必要です。

訓練詳細

訓練データ

このモデルは、Colossal Clean Crawled Corpus (C4) で事前学習されています。このデータセットは、T5 と同じ研究論文の文脈で開発および公開されました。

モデルは、教師なし（1.）と教師ありタスク（2.）のマルチタスク混合で事前学習されています。この際、以下のデータセットが（1.）と（2.）に使用されました。

教師なしノイズ除去目的で使用されたデータセット:

C4
Wiki-DPR

教師ありテキスト対テキスト言語モデリング目的で使用されたデータセット

文の妥当性判断
- CoLA Warstadt et al., 2018
感情分析
- SST-2 Socher et al., 2013
言い換え/文の類似性
- MRPC Dolan and Brockett, 2005
- STS-B Ceret al., 2017
- QQP Iyer et al., 2017
自然言語推論
- MNLI Williams et al., 2017
- QNLI Rajpurkar et al.,2016
- RTE Dagan et al., 2005
- CB De Marneff et al., 2019
文の完成
- COPA Roemmele et al., 2011
単語の意味曖昧性解消
- WIC Pilehvar and Camacho-Collados, 2018
質問応答
- MultiRC Khashabi et al., 2018
- ReCoRD Zhang et al., 2018
- BoolQ Clark et al., 2019

訓練手順

モデル開発者は、概要で以下のように書いています。

この論文では、すべての言語問題をテキスト対テキスト形式に変換する統一的なフレームワークを導入することで、自然言語処理の転移学習技術の可能性を探ります。私たちの体系的な研究では、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、その他の要因を数十の言語理解タスクで比較します。

導入されたフレームワークである T5 フレームワークは、論文で研究されたアプローチを統合した訓練手順を含んでいます。詳細については、研究論文を参照してください。

評価

テストデータ、要因、メトリクス

開発者は、24 のタスクでモデルを評価しました。詳細については、研究論文を参照してください。

結果

T5-Base の完全な結果については、研究論文の表 14 を参照してください。

環境影響

炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。

ハードウェアタイプ: Google Cloud TPU Pods
使用時間: 詳細情報が必要です
クラウドプロバイダー: GCP
コンピュートリージョン: 詳細情報が必要です
排出された炭素量: 詳細情報が必要です

引用

BibTeX:

@article{2020t5,
  author  = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title   = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {Journal of Machine Learning Research},
  year    = {2020},
  volume  = {21},
  number  = {140},
  pages   = {1-67},
  url     = {http://jmlr.org/papers/v21/20-074.html}
}

APA:

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.