🚀 Pile-T5 XXL
Pile-T5 XXLは、T5xライブラリを使用してthe Pileで学習されたエンコーダ・デコーダモデルです。このモデルは、元のT5モデルと同様のMLM目的を使用して、200万ステップ、またはおよそ2兆トークンで学習されました。Pile-T5 XXLのHFバージョンは、T5xのスケーラブルなモデル実装を使用し、LlamaTokenizer
を使用するUMT5のモデル実装を借用しています。
🚀 クイックスタート
Pile-T5 XXLを使用するには、以下のコードを実行します。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-xxl")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-xxl")
✨ 主な機能
- the Pileという大規模なデータセットで学習されたエンコーダ・デコーダモデル。
- T5xライブラリを使用して学習され、スケーラブルなモデル実装を備えています。
LlamaTokenizer
を使用しています。
📚 ドキュメント
モデルの詳細
ハイパーパラメータ |
値 |
nparameters |
11135426560 |
nencoder layers |
24 |
ndecoder layers |
24 |
dmodel |
10240 |
demb |
4096 |
nheads |
64 |
dhead |
64 |
nvocab |
32128 |
シーケンス長 |
512 |
使用方法と制限
想定される使用方法
Pile-T5は主に研究目的で開発されました。英語の内部表現を学習し、下流タスクに役立つ特徴を抽出するために使用できます。
科学的な用途に加えて、Apache 2.0ライセンスに準拠する限り、Pile-T5をさらにファインチューニングしてデプロイに適合させることもできます。このモデルはTransformers Libraryと互換性があります。事前学習されたPile-T5をファインチューニングモデルの基礎として使用する場合は、独自のリスクとバイアス評価を行う必要があることに注意してください。
想定外の使用方法
Pile-T5はそのままでのデプロイを想定していません。これは製品ではなく、監督なしで人間との対話に使用することはできません。
Pile-T5は、言語モデルが一般的にデプロイされる下流タスク、例えば特定のジャンルの文章の執筆や商用チャットボットなどにファインチューニングされていません。これは、Pile-T5が与えられたプロンプトに対して、ChatGPTのような製品と同じように応答する可能性が低いことを意味します。これは、ChatGPTが人間のフィードバックによる強化学習(RLHF)などの方法を使用してファインチューニングされ、人間の指示や対話をよりよく「理解」するようになっているのに対し、Pile-T5はそうではないからです。
このモデルは英語のみを扱うため、翻訳や他の言語のテキスト生成には使用できません。
制限とバイアス
Pile-T5の核心機能は、一部がマスクトークンに置き換えられたテキスト文字列を受け取り、それらのマスクトークンを置き換えるトークンのシーケンスを予測することです。統計的に最も可能性の高いトークンのシーケンスが、必ずしも最も「正確」なテキストにつながるとは限らないことを忘れないでください。Pile-T5が事実上正確な出力を生成することに決して依存しないでください。
このモデルは、不適切な言葉や露骨または不快なテキストを含むことが知られているthe Pileデータセットで学習されています。性別、宗教、人種に関する文書化されたバイアスの議論については、the Pile paperのセクション6を参照してください。Pile-T5は、プロンプト自体に明らかに不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。
このモデルの出力を人間の読者に提示する前に、キュレーションすることをお勧めします。人工的に生成されたテキストを使用していることを読者に伝えてください。
学習
学習データセット
the Pileは、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルの学習用に特別に作成されました。これは22の多様なソースからのテキストを含み、大まかに5つのカテゴリに分けられます:学術論文(例:arXiv)、インターネット(例:CommonCrawl)、散文(例:Project Gutenberg)、対話(例:YouTube字幕)、その他(例:GitHub、Enron Emails)。すべてのデータソースの内訳、方法論、および倫理的な影響の議論については、the Pile paperを参照してください。the Pileとその構成データセットに関するより詳細なドキュメントについては、データシートを参照してください。the Pileは公式ウェブサイトまたはコミュニティミラーからダウンロードできます。
the Pileは、Pile-T5を学習する前に重複排除されました。
学習手順
Pile-T5は、バッチサイズ約100万トークン(各512トークンの2048シーケンス)で、合計200万ステップ学習されました。Pile-T5は、スパン破損目的で学習されました。
学習チェックポイント
Pile-T5の中間チェックポイントは、このリポジトリ内でアクセス可能です。合計200のチェックポイントがあり、10,000ステップごとに保存されています。T5xライブラリでファインチューニングに使用できるT5xネイティブのチェックポイントについては、こちらを参照してください。
学習損失(tfevent形式)と検証パープレキシティ(jsonl形式)は、こちらで見つけることができます。
評価
Pile-T5 XXLは、SuperGLUE、CodeXGLUEで評価されました。Flanでファインチューニングされたバージョンは、Flan Held Inタスク、MMLU、BBHで評価されました。結果はブログ記事で確認できます。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}