モデル概要
モデル特徴
モデル能力
使用事例
🚀 FLAN - T5 baseのモデルカード
FLAN - T5 baseは、T5をベースにした言語モデルです。このモデルは、多言語に対応し、様々なタスク(翻訳、質問応答、論理推論など)において高い性能を発揮します。
🚀 クイックスタート
このモデルを使用する前に、必要なライブラリをインストールする必要があります。以下のコードを参考に、モデルを使用してみましょう。
✨ 主な機能
- 多言語対応:英語、スペイン語、日本語など、180以上の言語に対応しています。
- 多様なタスク対応:翻訳、質問応答、論理推論、数学的推論など、様々なタスクを実行できます。
- 高性能:事前学習とファインチューニングにより、少ないデータでも高い性能を発揮します。
📦 インストール
必要なライブラリをインストールすることで、このモデルを使用できます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-base")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-base")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
高度な使用法
# GPUを使用してモデルを実行する例
# pip install accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-base")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-base", device_map="auto")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
📚 ドキュメント
モデルの詳細
属性 | 详情 |
---|---|
モデルタイプ | 言語モデル |
言語 | 英語、スペイン語、日本語、ペルシャ語、ヒンディー語、フランス語、中国語、ベンガル語、グジャラート語、ドイツ語、テルグ語、イタリア語、アラビア語、ポーランド語、タミル語、マラーティー語、マラヤーラム語、オリヤー語、パンジャーブ語、ポルトガル語、ウルドゥー語、ガリシア語、ヘブライ語、韓国語、カタルーニャ語、タイ語、オランダ語、インドネシア語、ベトナム語、ブルガリア語、フィリピン語、中央クメール語、ラオス語、トルコ語、ロシア語、クロアチア語、スウェーデン語、ヨルバ語、クルド語、ビルマ語、マレー語、チェコ語、フィンランド語、ソマリ語、タガログ語、スワヒリ語、シンハラ語、カンナダ語、チワン語、イボ語、コサ語、ルーマニア語、ハイチ語、エストニア語、スロバキア語、リトアニア語、ギリシャ語、ネパール語、アッサム語、ノルウェー語 |
ライセンス | Apache - 2.0 |
関連モデル | [All FLAN - T5 Checkpoints](https://huggingface.co/models?search=flan - t5) |
元のチェックポイント | [All Original FLAN - T5 Checkpoints](https://github.com/google - research/t5x/blob/main/docs/models.md#flan - t5 - checkpoints) |
詳細情報のリソース | Research paper、[GitHub Repo](https://github.com/google - research/t5x)、Hugging Face FLAN - T5 Docs (Similar to T5) |
用途
直接利用と下流利用
このモデルの主な用途は、言語モデルの研究です。具体的には、ゼロショットNLPタスクやコンテキスト内のフューションショット学習NLPタスク(推論、質問応答など)の研究、公平性と安全性の研究の推進、および現在の大規模言語モデルの制限の理解です。詳細は研究論文を参照してください。
範囲外の利用
詳細情報は必要です。
バイアス、リスク、および制限
倫理的な考慮事項とリスク
Flan - T5は、明示的なコンテンツについてフィルタリングされていない、または既存のバイアスについて評価されていない大量のテキストデータでファインチューニングされています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基盤となるデータに内在するバイアスを再現したりする可能性があります。
既知の制限
Flan - T5は、実世界のアプリケーションでテストされていません。
敏感な利用
Flan - T5は、許容できないユースケース(例えば、虐待的な言葉の生成)には適用しないでください。
トレーニングの詳細
トレーニングデータ
このモデルは、様々なタスクの混合データでトレーニングされています。詳細は元の論文の図2を参照してください。
トレーニング手順
これらのモデルは、事前学習されたT5(Raffel et al., 2020)をベースにしており、ゼロショットとフューションショットの性能を向上させるために命令でファインチューニングされています。T5モデルのサイズごとに1つのファインチューニングされたFlanモデルがあります。モデルは、TPU v3またはTPU v4ポッドで、[t5x
](https://github.com/google - research/t5x)コードベースとjax
を使用してトレーニングされています。
評価
テストデータ、要因、およびメトリクス
著者らは、様々な言語(合計1836言語)をカバーする様々なタスクでモデルを評価しました。定量的な評価の一部を以下の表に示します。
詳細は、研究論文を参照してください。
結果
FLAN - T5 - Baseの完全な結果については、研究論文の表3を参照してください。
環境への影響
炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。
- ハードウェアタイプ:Google Cloud TPU Pods - TPU v3またはTPU v4 | チップ数 ≥ 4
- 使用時間:詳細情報は必要です
- クラウドプロバイダー:GCP
- コンピュートリージョン:詳細情報は必要です
- 排出された炭素量:詳細情報は必要です
引用
BibTeX:
@misc{https://doi.org/10.48550/arxiv.2210.11416,
doi = {10.48550/ARXIV.2210.11416},
url = {https://arxiv.org/abs/2210.11416},
author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Scaling Instruction-Finetuned Language Models},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
モデルの再利用
[36のデータセットでの評価](https://ibm.github.io/model - recycling/model_gain_chart?avg=9.16&mnli_lp=nan&20_newsgroup=3.34&ag_news=1.49&amazon_reviews_multi=0.21&anli=13.91&boolq=16.75&cb=23.12&cola=9.97&copa=34.50&dbpedia=6.90&esnli=5.37&financial_phrasebank=18.66&imdb=0.33&isear=1.37&mnli=11.74&mrpc=16.63&multirc=6.24&poem_sentiment=14.62&qnli=3.41&qqp=6.18&rotten_tomatoes=2.98&rte=24.26&sst2=0.67&sst_5bins=5.44&stsb=20.68&trec_coarse=3.95&trec_fine=10.73&tweet_ev_emoji=13.39&tweet_ev_emotion=4.62&tweet_ev_hate=3.46&tweet_ev_irony=9.04&tweet_ev_offensive=1.69&tweet_ev_sentiment=0.75&wic=14.22&wnli=9.44&wsc=5.53&yahoo_answers=4.14&model_name=google%2Fflan - t5 - base&base_name=google%2Ft5 - v1_1 - base)では、google/flan - t5 - baseをベースモデルとして使用すると、平均スコアが77.98となり、google/t5 - v1_1 - baseの68.82と比較して高い結果が得られました。
このモデルは、2023年2月6日現在、google/t5 - v1_1 - baseアーキテクチャのすべてのテストモデルの中で1位にランクされています。結果は以下の通りです。
20_newsgroup | ag_news | amazon_reviews_multi | anli | boolq | cb | cola | copa | dbpedia | esnli | financial_phrasebank | imdb | isear | mnli | mrpc | multirc | poem_sentiment | qnli | qqp | rotten_tomatoes | rte | sst2 | sst_5bins | stsb | trec_coarse | trec_fine | tweet_ev_emoji | tweet_ev_emotion | tweet_ev_hate | tweet_ev_irony | tweet_ev_offensive | tweet_ev_sentiment | wic | wnli | wsc | yahoo_answers |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
86.2188 | 89.6667 | 67.12 | 51.9688 | 82.3242 | 78.5714 | 80.1534 | 75 | 77.6667 | 90.9507 | 85.4 | 93.324 | 72.425 | 87.2457 | 89.4608 | 62.3762 | 82.6923 | 92.7878 | 89.7724 | 89.0244 | 84.8375 | 94.3807 | 57.2851 | 89.4759 | 97.2 | 92.8 | 46.848 | 80.2252 | 54.9832 | 76.6582 | 84.3023 | 70.6366 | 70.0627 | 56.338 | 53.8462 | 73.4 |
詳細情報は、[Model Recycling](https://ibm.github.io/model - recycling/)を参照してください。
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。



