モデル概要
モデル特徴
モデル能力
使用事例
🚀 FLAN-T5 largeモデルカード
FLAN-T5 largeは、多言語に対応した高性能なテキスト生成モデルです。このモデルは、様々なNLPタスクにおいて優れた性能を発揮し、研究や開発に役立ちます。
📚 目次
📋 TL;DR
既にT5をご存知の方には、FLAN-T5は全ての点でより優れています。同じパラメータ数で、これらのモデルは1000以上の追加タスクでファインチューニングされ、より多くの言語に対応しています。
Flan-PaLM 540Bは、いくつかのベンチマークで最先端の性能を達成しています。例えば、5ショットのMMLUで75.2%の精度を達成しています。また、Flan-T5のチェックポイントも公開しています。これらのモデルは、PaLM 62Bのようなはるかに大きなモデルと比較しても、強力なフェデレーションラーニング性能を発揮します。全体として、命令によるファインチューニングは、事前学習された言語モデルの性能と使いやすさを向上させる一般的な方法です。
免責事項: このモデルカードの内容は、Hugging Faceチームによって作成され、一部はT5モデルカードからコピーされています。
✨ 主な機能
- 対応言語:英語、スペイン語、日本語、ペルシャ語、ヒンディー語、フランス語、中国語、ベンガル語、グジャラート語、ドイツ語、テルグ語、イタリア語、アラビア語、ポーランド語、タミル語、マラーティー語、マラヤーラム語、オリヤー語、パンジャーブ語、ポルトガル語、ウルドゥー語、ガリシア語、ヘブライ語、韓国語、カタルーニャ語、タイ語、オランダ語、インドネシア語、ベトナム語、ブルガリア語、フィリピン語、クメール語、ラオス語、トルコ語、ロシア語、クロアチア語、スウェーデン語、ヨルバ語、クルド語、ビルマ語、マレー語、チェコ語、フィンランド語、ソマリ語、タガログ語、スワヒリ語、シンハラ語、カンナダ語、チワン語、イボ語、コサ語、ルーマニア語、ハイチ語、エストニア語、スロバキア語、リトアニア語、ギリシャ語、ネパール語、アッサム語、ノルウェー語
- タスク対応:翻訳、質問応答、論理推論、科学知識、はい/いいえの質問、推論タスク、ブール式、数学推論、前提と仮説の関係判断など
ウィジェットの使用例
ウィジェットのタイトル | テキスト内容 |
---|---|
翻訳 | ドイツ語に翻訳してください:My name is Arthur |
質問応答 | 次の質問に答えてください。次のボールドール賞の受賞者は誰になるでしょうか? |
論理推論 | Q: ジェフリー・ヒントンはジョージ・ワシントンと会話できますか?答える前に理由を説明してください。 |
科学知識 | 次の質問に答えてください。窒素の沸点は何ですか? |
はい/いいえの質問 | 次のはい/いいえの質問に答えてください。ツイート1つで俳句を書くことはできますか? |
推論タスク | 次のはい/いいえの質問に、ステップバイステップで推論して答えてください。ツイート1つで俳句を書くことはできますか? |
ブール式 | Q: ( False or not False or False ) は? A: 一歩一歩考えましょう |
数学推論 | xの平方根はyの立方根です。x = 4の場合、yの2乗は何ですか? |
前提と仮説 | 前提: 私の年齢になると、おそらく1つの教訓を学んでいるでしょう。仮説: 30代までにいくつの教訓を学ぶかは不明です。前提は仮説を含意していますか? |
タグ
- テキスト生成
データセット
- svakulenk0/qrecc
- taskmaster2
- djaym7/wiki_dialog
- deepmind/code_contests
- lambada
- gsm8k
- aqua_rat
- esnli
- quasc
- qed
ライセンス
- apache-2.0
📦 モデルの詳細
モデルの説明
属性 | 詳情 |
---|---|
モデルタイプ | 言語モデル |
対応言語 | 英語、スペイン語、日本語、ペルシャ語、ヒンディー語、フランス語、中国語、ベンガル語、グジャラート語、ドイツ語、テルグ語、イタリア語、アラビア語、ポーランド語、タミル語、マラーティー語、マラヤーラム語、オリヤー語、パンジャーブ語、ポルトガル語、ウルドゥー語、ガリシア語、ヘブライ語、韓国語、カタルーニャ語、タイ語、オランダ語、インドネシア語、ベトナム語、ブルガリア語、フィリピン語、クメール語、ラオス語、トルコ語、ロシア語、クロアチア語、スウェーデン語、ヨルバ語、クルド語、ビルマ語、マレー語、チェコ語、フィンランド語、ソマリ語、タガログ語、スワヒリ語、シンハラ語、カンナダ語、チワン語、イボ語、コサ語、ルーマニア語、ハイチ語、エストニア語、スロバキア語、リトアニア語、ギリシャ語、ネパール語、アッサム語、ノルウェー語 |
ライセンス | Apache 2.0 |
関連モデル | すべてのFLAN-T5チェックポイント |
オリジナルのチェックポイント | すべてのオリジナルFLAN-T5チェックポイント |
詳細情報のリソース | 研究論文、GitHubリポジトリ、Hugging Face FLAN-T5ドキュメント (T5と類似) |
💻 使用例
基本的な使用法
以下は、transformers
ライブラリを使用してモデルを使う例です。
CPUでモデルを実行する
展開するにはクリック
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
GPUでモデルを実行する
展開するにはクリック
# pip install accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto")
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
異なる精度でGPUでモデルを実行する
FP16
展開するにはクリック
# pip install accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto", torch_dtype=torch.float16)
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8
展開するにはクリック
# pip install bitsandbytes accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto", load_in_8bit=True)
input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
📖 用途
直接的な使用と下流の使用
著者は元の論文のモデルカードで次のように述べています。
主な用途は、言語モデルの研究です。これには、ゼロショットNLPタスクやコンテキスト内のフェデレーションラーニングNLPタスク(推論や質問応答など)の研究、公平性と安全性の研究の推進、および現在の大規模言語モデルの制限事項の理解が含まれます。
詳細については、研究論文を参照してください。
範囲外の使用
詳細情報が必要です。
🔧 バイアス、リスク、および制限事項
このセクションの情報は、モデルの公式モデルカードからコピーされています。
Raeら (2021) によると、Flan-T5を含む言語モデルは、有害な方法で言語生成に使用される可能性があります。Flan-T5は、アプリケーション固有の安全性と公平性の問題を事前に評価せずに、直接アプリケーションに使用してはなりません。
倫理的な考慮事項とリスク
Flan-T5は、明示的なコンテンツについてフィルタリングされていない、または既存のバイアスについて評価されていない大量のテキストデータでファインチューニングされています。その結果、モデル自体は、同等の不適切なコンテンツを生成したり、基盤となるデータに内在するバイアスを再現したりする可能性があります。
既知の制限事項
Flan-T5は、実世界のアプリケーションでテストされていません。
敏感な使用
Flan-T5は、許容できないユースケース(例えば、虐待的なスピーチの生成)には適用しないでください。
📈 トレーニングの詳細
トレーニングデータ
モデルは、以下の表に記載されているタスクを含むタスクの混合でトレーニングされました(元の論文、図2より)。
トレーニング手順
元の論文のモデルカードによると、
これらのモデルは、事前学習されたT5(Raffelら、2020)をベースにしており、ゼロショットおよびフェデレーションラーニングの性能を向上させるために命令でファインチューニングされています。T5モデルのサイズごとに1つのファインチューニングされたFlanモデルがあります。
モデルは、TPU v3またはTPU v4ポッドで、t5x
コードベースとjax
を使用してトレーニングされています。
📊 評価
テストデータ、要因、および指標
著者は、様々な言語(合計1836言語)をカバーする様々なタスクでモデルを評価しました。以下の表は、いくつかの定量的な評価結果です。
詳細については、研究論文を参照してください。
結果
FLAN-T5-Largeの完全な結果については、研究論文の表3を参照してください。
🌱 環境への影響
炭素排出量は、Machine Learning Impact calculatorを使用して推定できます(Lacosteら (2019))。
- ハードウェアタイプ:Google Cloud TPU Pods - TPU v3またはTPU v4 | チップ数 ≥ 4
- 使用時間:詳細情報が必要
- クラウドプロバイダー:GCP
- コンピュートリージョン:詳細情報が必要
- 排出された炭素量:詳細情報が必要
📄 引用
@misc{https://doi.org/10.48550/arxiv.2210.11416,
doi = {10.48550/ARXIV.2210.11416},
url = {https://arxiv.org/abs/2210.11416},
author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {Scaling Instruction-Finetuned Language Models},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}



