🚀 Pile-T5 Base
Pile-T5 Baseは、T5x ライブラリを使用してthe Pile で学習されたエンコーダ・デコーダモデルです。このモデルは、元のT5モデルと同様のMLM目的で、200万ステップ、またはおよそ2兆トークンの学習を行いました。Pile-T5 BaseのHFバージョンは、T5xの拡張可能なモデル実装を使用し、LlamaTokenizer
を用いるUMT5のモデル実装を借りています。
🚀 クイックスタート
Pile-T5 Baseを使用するには、以下のコードを実行します。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-base" )
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-base" )
✨ 主な機能
📚 ドキュメント
モデルの詳細
| ハイパーパラメータ | 値 |
| -------------------------- | ----------- |
| nparameters | 247586304 |
| nencoder layers | 12 |
| ndecoder layers | 12 |
| dmodel | 2048 |
| demb | 768 |
| nheads | 12 |
| dhead | 64 |
| nvocab | 32128 |
| シーケンス長 | 512 |
使用方法と制限
想定される使用方法
Pile-T5は主に研究目的で開発されました。英語の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。科学的な用途に加え、Apache 2.0ライセンスに従う限り、Pile-T5を微調整してデプロイに適用することもできます。このモデルはTransformers Library と互換性があります。事前学習されたPile-T5を微調整モデルの基礎として使用する場合は、独自のリスクとバイアス評価を行う必要があります。
想定外の使用方法
Pile-T5はそのままでのデプロイを想定していません。製品ではなく、監督なしで人間との対話に使用することはできません。Pile-T5は、言語モデルが一般的にデプロイされる下流タスク、例えばジャンル散文の執筆や商用チャットボットなどに対して微調整されていません。これは、Pile-T5がChatGPTのような製品と同じように与えられたプロンプトに応答する可能性が低いことを意味します。これは、ChatGPTが人間のフィードバックによる強化学習(RLHF)などの方法で微調整され、人間の指示や対話をよりよく「理解」するようになっているのに対し、Pile-T5はそうではないからです。このモデルは英語のみに対応しているため、翻訳や他の言語のテキスト生成には使用できません。
制限とバイアス
Pile-T5の核心機能は、一部がマスクトークンに置き換えられたテキスト文字列を受け取り、それらのマスクトークンを置き換えるトークンのシーケンスを予測することです。統計的に最も可能性の高いトークンのシーケンスが最も「正確」なテキストになるとは限らないことを忘れないでください。Pile-T5が事実上正確な出力を生成することに決して依存しないでください。このモデルはthe Pile で学習されており、このデータセットには不適切な表現や露骨なテキストが含まれていることが知られています。性別、宗教、人種に関する文書化されたバイアスについての議論は、the Pile paperのセクション6 を参照してください。Pile-T5は、プロンプト自体に明示的な不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。このモデルの出力を人間の読者に提示する前に、出力を選別することをお勧めします。人工的に生成されたテキストを使用していることを読者に伝えてください。
学習
学習データセット
The Pileは、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルの学習用に特別に作成されました。22の多様なソースからのテキストが含まれており、大まかに5つのカテゴリに分けられます:学術論文(例:arXiv)、インターネット(例:CommonCrawl)、散文(例:Project Gutenberg)、対話(例:YouTube字幕)、その他(例:GitHub、Enron Emails)。すべてのデータソースの内訳、方法論、および倫理的な影響に関する議論については、the Pile paper を参照してください。The Pileとその構成データセットに関するより詳細なドキュメントについては、データシート を参照してください。The Pileは公式ウェブサイト またはコミュニティミラー からダウンロードできます。The Pileは、Pile-T5を学習する前に重複排除されました。
学習手順
Pile-T5は、バッチサイズ約100万トークン(各512トークンの2048シーケンス)で、合計200万ステップ学習されました。Pile-T5は、スパン破損目的で学習されました。
学習チェックポイント
Pile-T5の中間チェックポイントはこのリポジトリ内でアクセス可能です。合計200のチェックポイントがあり、10,000ステップごとに保存されています。T5xライブラリで微調整に使用できるT5xネイティブのチェックポイントについては、こちら を参照してください。学習損失(tfevent形式)と検証パープレキシティ(jsonl)はこちら で見つけることができます。
評価
Pile-T5 Baseは、SuperGLUE、CodeXGLUEで評価されました。Flanで微調整されたバージョンは、Flan Held Inタスクで評価されました。結果はブログ記事 で確認できます。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}