Flan-T5 XLオープンソース言語モデル - 多言語少サンプル性能が強力で、超1000種類のタスクアプリケーションをサポート

ホーム

Flan T5 Xl

googleによって開発

FLAN-T5 XLはT5アーキテクチャに基づく命令ファインチューニング言語モデルで、1000以上のタスクでファインチューニング後、多言語および少数サンプル性能が大幅に向上しました。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #多言語命令ファインチューニング #ゼロショット推論 #タスク汎化

ダウンロード数 257.40k

リリース時間 : 10/21/2022

モデル概要

命令ファインチューニングされたテキストからテキストへの生成モデルで、複数の言語とタスクをサポートし、同等規模のT5モデルよりも優れた性能を発揮します。

モデル特徴

マルチタスク命令ファインチューニング

1000以上のタスクでファインチューニングされ、ゼロショットおよび少数サンプル学習能力が大幅に向上しました

多言語サポート

60以上の言語の処理と生成をサポートします

オープンソース利用可能

Apache 2.0ライセンスの下で公開されており、研究および商業利用に便利です

モデル能力

テキスト翻訳

質問応答システム

論理的推論

科学知識解答

ブール式計算

数学問題解決

使用事例

言語処理

多言語翻訳

60以上の言語間のテキスト翻訳をサポートします

高品質な翻訳効果

知識質問応答

様々な知識的な質問に答えます

同等規模のモデルよりも高い精度

教育研究

数学問題解決

代数、幾何などの数学問題を解決します

段階的な推論で正しい答えを導き出します

🚀 FLAN - T5 XLのモデルカード

FLAN - T5 XLは、T5をベースにした言語モデルで、多言語に対応した様々なタスクで優れた性能を発揮します。このモデルは、事前学習されたT5を微調整することで、ゼロショットやフューションショットの性能が向上しています。

🚀 クイックスタート

このセクションでは、FLAN - T5 XLモデルの基本的な使い方を説明します。

モデルの詳細

モデルタイプ：言語モデル
サポート言語：英語、スペイン語、日本語、ペルシャ語、ヒンディー語、フランス語、中国語、ベンガル語、グジャラート語、ドイツ語、テルグ語、イタリア語、アラビア語、ポーランド語、タミル語、マラーティー語、マラヤーラム語、オリヤー語、パンジャーブ語、ポルトガル語、ウルドゥー語、ガリシア語、ヘブライ語、韓国語、カタルーニャ語、タイ語、オランダ語、インドネシア語、ベトナム語、ブルガリア語、フィリピン語、中央クメール語、ラオス語、トルコ語、ロシア語、クロアチア語、スウェーデン語、ヨルバ語、クルド語、ビルマ語、マレー語、チェコ語、フィンランド語、ソマリ語、タガログ語、スワヒリ語、シンハラ語、カンナダ語、チワン語、イボ語、コサ語、ルーマニア語、ハイチ語、エストニア語、スロバキア語、リトアニア語、ギリシャ語、ネパール語、アッサム語、ノルウェー語
ライセンス：Apache 2.0
関連モデル：[すべてのFLAN - T5チェックポイント](https://huggingface.co/models?search=flan - t5)
元のチェックポイント：[すべての元のFLAN - T5チェックポイント](https://github.com/google - research/t5x/blob/main/docs/models.md#flan - t5 - checkpoints)
詳細情報のリソース：
- 研究論文
- [GitHubリポジトリ](https://github.com/google - research/t5x)
- Hugging FaceのFLAN - T5ドキュメント (T5と類似)

モデルの使用例

以下は、transformersライブラリを使用してモデルを実行する例です。

基本的な使用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xl")

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

高度な使用法

GPUでの実行

# pip install accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xl", device_map="auto")

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

異なる精度でGPUを使用する

FP16

# pip install accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xl", device_map="auto", torch_dtype=torch.float16)

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

INT8

# pip install bitsandbytes accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xl", device_map="auto", load_in_8bit=True)

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

モデルの用途

直接的な使用と下流の使用

原著論文のモデルカードによると、このモデルの主な用途は、言語モデルに関する研究です。具体的には、ゼロショットNLPタスクやインコンテキストフューションショット学習NLPタスク（推論や質問応答など）の研究、公平性と安全性の研究の推進、および現在の大規模言語モデルの制限の理解などが含まれます。詳細については、研究論文を参照してください。

範囲外の使用

詳細情報は必要です。

バイアス、リスク、および制限

倫理的な考慮事項とリスク

FLAN - T5は、明示的なコンテンツについてフィルタリングされていない、または既存のバイアスについて評価されていない大規模なテキストデータセットで微調整されています。そのため、モデル自体は、同様に不適切なコンテンツを生成したり、基盤となるデータに内在するバイアスを再現したりする可能性があります。

既知の制限

FLAN - T5は、実世界のアプリケーションでテストされていません。

敏感な使用

FLAN - T5は、許容できないユースケース（例えば、虐待的なスピーチの生成）には適用しないでください。

トレーニングの詳細

トレーニングデータ

このモデルは、以下の表に示すタスクを含むタスクの混合でトレーニングされました（原著論文、図2より）。

トレーニング手順

原著論文のモデルカードによると、これらのモデルは、事前学習されたT5（Raffel et al., 2020）をベースにしており、ゼロショットとフューションショットの性能を向上させるために命令で微調整されています。T5モデルのサイズごとに1つの微調整されたFlanモデルがあります。

このモデルは、TPU v3またはTPU v4ポッドで、[t5x](https://github.com/google - research/t5x)コードベースとjaxを使用してトレーニングされています。

評価

テストデータ、要因、およびメトリクス

著者らは、様々な言語（合計1836言語）をカバーする様々なタスクでモデルを評価しました。定量的な評価の一部については、以下の表を参照してください。

詳細については、研究論文を参照してください。

結果

FLAN - T5 - XLの完全な結果については、研究論文の表3を参照してください。

環境への影響

炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定できます。

ハードウェアタイプ：Google Cloud TPU Pods - TPU v3またはTPU v4 | チップ数 ≥ 4
使用時間：詳細情報は必要です
クラウドプロバイダー：GCP
コンピュートリージョン：詳細情報は必要です
排出された炭素量：詳細情報は必要です

引用

@misc{https://doi.org/10.48550/arxiv.2210.11416,
  doi = {10.48550/ARXIV.2210.11416},
  
  url = {https://arxiv.org/abs/2210.11416},
  
  author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
  
  keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {Scaling Instruction-Finetuned Language Models},
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}

その他の情報

サポート言語：英語、フランス語、ルーマニア語、ドイツ語、多言語
ウィジェットの例：翻訳、質問応答、論理的推論、科学的知識、yes/no質問、推論タスク、ブール式、数学的推論、前提と仮説など
タグ：text2text - generation
データセット：svakulenk0/qrecc、taskmaster2、djaym7/wiki_dialog、deepmind/code_contests、lambada、gsm8k、aqua_rat、esnli、quasc、qed
ライセンス：apache - 2.0

FLAN - T5のアーキテクチャ