flan - t5 - smallオープンソース多言語AIモデル - マルチタスク微調整により、性能が元のT5を上回る

ホーム

Flan T5 Small

googleによって開発

FLAN-T5はT5モデルの命令微調整バージョンで、1000以上の追加タスクで微調整され、複数の言語をサポートし、元のT5よりも性能が優れています。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #マルチタスク命令微調整 #多言語翻訳 #ゼロショット推論

ダウンロード数 587.92k

リリース時間 : 10/21/2022

モデル概要

FLAN-T5はT5アーキテクチャに基づく命令微調整言語モデルで、大規模なマルチタスク学習によりゼロショットと少サンプルの性能が向上し、さまざまなNLPタスクに適しています。

モデル特徴

マルチタスク命令微調整

1000以上の異なるタスクで微調整され、ゼロショットと少サンプル学習能力が大幅に向上します。

多言語サポート

60種以上の言語の処理と生成能力をサポートします。

効率的な推論

小型バージョンはリソースが限られた環境でのデプロイと使用に適しています。

モデル能力

テキスト生成

多言語翻訳

質問応答システム

論理推論

科学知識解答

数学計算

テキスト要約

使用事例

言語処理

機械翻訳

複数の言語間のテキスト翻訳をサポートします。

高品質の翻訳結果、例えば英語からドイツ語への翻訳

質問応答システム

さまざまな分野の知識的な質問に答えます。

科学、歴史などの分野の質問に正確に答えます。

教育支援

数学問題解答

数学の推論と計算問題を解きます。

複雑な数学問題を段階的に推論して解きます。

🚀 FLAN-T5 small モデルカード

FLAN-T5 smallは、多言語に対応したテキスト生成モデルです。このモデルは、様々なNLPタスクに対応しており、研究や開発に役立ちます。

🚀 クイックスタート

このモデルは、多言語に対応したテキスト生成モデルです。以下に、transformersライブラリを使用してモデルを使用する例を示します。

基本的な使用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small")

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

高度な使用法

GPUでの実行

# pip install accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto")

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

異なる精度でGPUで実行する

FP16

# pip install accelerate
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto", torch_dtype=torch.float16)

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

INT8

# pip install bitsandbytes accelerate
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-small")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-small", device_map="auto", load_in_8bit=True)

input_text = "translate English to German: How old are you?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))

✨ 主な機能

多言語対応：英語、スペイン語、日本語など、100以上の言語に対応しています。
多様なタスク対応：翻訳、質問応答、論理推論など、様々なNLPタスクに対応しています。
事前学習済みモデルの微調整：事前学習済みのT5モデルを微調整することで、ゼロショットやフューションショットの性能を向上させています。

📦 インストール

このモデルはtransformersライブラリを使用して使用できます。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

モデル詳細

属性	詳情
モデルタイプ	言語モデル
言語	英語、スペイン語、日本語、ペルシャ語、ヒンディー語、フランス語、中国語、ベンガル語、グジャラート語、ドイツ語、テルグ語、イタリア語、アラビア語、ポーランド語、タミル語、マラーティー語、マラヤーラム語、オリヤー語、パンジャーブ語、ポルトガル語、ウルドゥー語、ガリシア語、ヘブライ語、韓国語、カタルーニャ語、タイ語、オランダ語、インドネシア語、ベトナム語、ブルガリア語、フィリピン語、中央クメール語、ラオス語、トルコ語、ロシア語、クロアチア語、スウェーデン語、ヨルバ語、クルド語、ビルマ語、マレー語、チェコ語、フィンランド語、ソマリ語、タガログ語、スワヒリ語、シンハラ語、カンナダ語、チワング語、イボ語、コサ語、ルーマニア語、ハイチ語、エストニア語、スロバキア語、リトアニア語、ギリシャ語、ネパール語、アッサム語、ノルウェー語
ライセンス	Apache-2.0
関連モデル	All FLAN-T5 Checkpoints
元のチェックポイント	All Original FLAN-T5 Checkpoints
詳細情報のリソース	Research paper、GitHub Repo、Hugging Face FLAN-T5 Docs (Similar to T5)

使用用途

直接使用と下流の使用

このモデルの主な使用用途は、言語モデルの研究です。具体的には、ゼロショットNLPタスクや文脈内のフューションショット学習NLPタスク（推論や質問応答など）の研究、公平性と安全性の研究の推進、および現在の大規模言語モデルの制限の理解です。詳細については、研究論文を参照してください。

範囲外の使用

詳細情報は必要です。

バイアス、リスク、および制限

倫理的な考慮事項とリスク

Flan-T5は、明示的なコンテンツについてフィルタリングされていない、または既存のバイアスについて評価されていない大量のテキストデータで微調整されています。その結果、モデル自体は、同等に不適切なコンテンツを生成したり、基盤となるデータに内在するバイアスを再現したりする可能性があります。

既知の制限

Flan-T5は、実世界のアプリケーションでテストされていません。

敏感な使用

Flan-T5は、許容できないユースケース（例：虐待的なスピーチの生成）には適用しないでください。

学習詳細

学習データ

このモデルは、以下の表に記載されているタスクを含むタスクの混合物で学習されています（元の論文、図2より）。

学習手順

これらのモデルは、事前学習済みのT5（Raffel et al., 2020）に基づいており、ゼロショットとフューションショットの性能を向上させるために指示付きで微調整されています。T5モデルのサイズごとに1つの微調整されたFlanモデルがあります。モデルは、TPU v3またはTPU v4ポッドで、t5xコードベースとjaxを使用して学習されています。

評価

テストデータ、要因、およびメトリクス

著者らは、様々な言語（合計1836言語）をカバーする様々なタスクでモデルを評価しました。以下の表に、いくつかの定量的な評価を示します。詳細については、研究論文を参照してください。

結果

FLAN-T5-Smallの完全な結果については、研究論文の表3を参照してください。

環境への影響

炭素排出量は、Lacoste et al. (2019)に提示されているMachine Learning Impact calculatorを使用して推定できます。

ハードウェアタイプ：Google Cloud TPU Pods - TPU v3またはTPU v4 | チップ数 ≥ 4
使用時間：詳細情報は必要です
クラウドプロバイダー：GCP
コンピュートリージョン：詳細情報は必要です
排出された炭素量：詳細情報は必要です

引用

@misc{https://doi.org/10.48550/arxiv.2210.11416,
  doi = {10.48550/ARXIV.2210.11416},
  
  url = {https://arxiv.org/abs/2210.11416},
  
  author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
  
  keywords = {Machine Learning (cs.LG), Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
  
  title = {Scaling Instruction-Finetuned Language Models},
  
  publisher = {arXiv},
  
  year = {2022},
  
  copyright = {Creative Commons Attribution 4.0 International}
}