pile-t5-xxlオープンソース言語モデル - テキスト処理とスマートな質問応答アプリケーションを支援

ホーム

Pile T5 Xxl

EleutherAIによって開発

Pile-T5 XXLはT5xライブラリを使用し、The Pileデータセットで訓練されたエンコーダー-デコーダーモデルで、オリジナルのT5モデルと同様のMLM目標を用いて200万ステップ（約2兆トークン）訓練されています。

大規模言語モデル

Transformers

英語#英語テキスト再構築 #大規模事前学習 #エンコーダー-デコーダーアーキテクチャ

ダウンロード数 44

リリース時間 : 1/16/2024

モデル概要

Pile-T5は主に研究用途を目的としており、学習された英語の内部表現は下流タスクの特徴抽出に使用できます。研究以外にも、ユーザーはApache 2.0ライセンスに基づいてモデルを微調整して展開することが可能です。

モデル特徴

大規模訓練

The Pileデータセットで200万ステップ、約2兆トークン訓練されており、強力な言語理解能力を備えています。

効率的なアーキテクチャ

T5xのスケーラブルなモデルアーキテクチャを採用し、UMT5の実装を参考に、LlamaTokenizerを使用しています。

研究指向

主に研究用途を目的としており、下流タスクの特徴抽出や微調整実験に適しています。

モデル能力

テキスト生成

テキストマスク予測

下流タスク特徴抽出

使用事例

学術研究

言語モデル研究

大規模言語モデルの内部表現と行動特性を研究するために使用されます。

下流タスクの微調整

事前訓練モデルとして、特定のタスクに対して微調整が可能です。

🚀 Pile-T5 XXL

Pile-T5 XXLは、T5xライブラリを使用してthe Pileで学習されたエンコーダ・デコーダモデルです。このモデルは、元のT5モデルと同様のMLM目的を使用して、200万ステップ、またはおよそ2兆トークンで学習されました。Pile-T5 XXLのHFバージョンは、T5xのスケーラブルなモデル実装を使用し、LlamaTokenizerを使用するUMT5のモデル実装を借用しています。

🚀 クイックスタート

Pile-T5 XXLを使用するには、以下のコードを実行します。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-xxl")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-xxl")

✨ 主な機能

the Pileという大規模なデータセットで学習されたエンコーダ・デコーダモデル。
T5xライブラリを使用して学習され、スケーラブルなモデル実装を備えています。
LlamaTokenizerを使用しています。

📚 ドキュメント

モデルの詳細

プロパティ	詳細
開発者	EleutherAI
モデルタイプ	Transformerベースの言語モデル
言語	英語
詳細情報	ブログ記事。学習データセットの詳細については、the Pile paperとそのデータシートを参照してください。
ライセンス	Apache 2.0
問い合わせ先	このモデルに関する質問は、EleutherAI Discordに参加し、`#release-discussion`に投稿してください。Discordでモデルに関する質問をする前に、既存のGPT - NeoX - 20Bのドキュメントを読んでください。一般的な問い合わせは、contact@eleuther.aiまで。

ハイパーパラメータ	値
n_parameters	11135426560
n_{encoder layers}	24
n_{decoder layers}	24
d_model	10240
d_emb	4096
n_heads	64
d_head	64
n_vocab	32128
シーケンス長	512

使用方法と制限

想定される使用方法

Pile-T5は主に研究目的で開発されました。英語の内部表現を学習し、下流タスクに役立つ特徴を抽出するために使用できます。

科学的な用途に加えて、Apache 2.0ライセンスに準拠する限り、Pile-T5をさらにファインチューニングしてデプロイに適合させることもできます。このモデルはTransformers Libraryと互換性があります。事前学習されたPile-T5をファインチューニングモデルの基礎として使用する場合は、独自のリスクとバイアス評価を行う必要があることに注意してください。

想定外の使用方法

Pile-T5はそのままでのデプロイを想定していません。これは製品ではなく、監督なしで人間との対話に使用することはできません。

Pile-T5は、言語モデルが一般的にデプロイされる下流タスク、例えば特定のジャンルの文章の執筆や商用チャットボットなどにファインチューニングされていません。これは、Pile-T5が与えられたプロンプトに対して、ChatGPTのような製品と同じように応答する可能性が低いことを意味します。これは、ChatGPTが人間のフィードバックによる強化学習（RLHF）などの方法を使用してファインチューニングされ、人間の指示や対話をよりよく「理解」するようになっているのに対し、Pile-T5はそうではないからです。

このモデルは英語のみを扱うため、翻訳や他の言語のテキスト生成には使用できません。

制限とバイアス

Pile-T5の核心機能は、一部がマスクトークンに置き換えられたテキスト文字列を受け取り、それらのマスクトークンを置き換えるトークンのシーケンスを予測することです。統計的に最も可能性の高いトークンのシーケンスが、必ずしも最も「正確」なテキストにつながるとは限らないことを忘れないでください。Pile-T5が事実上正確な出力を生成することに決して依存しないでください。

このモデルは、不適切な言葉や露骨または不快なテキストを含むことが知られているthe Pileデータセットで学習されています。性別、宗教、人種に関する文書化されたバイアスの議論については、the Pile paperのセクション6を参照してください。Pile-T5は、プロンプト自体に明らかに不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。

このモデルの出力を人間の読者に提示する前に、キュレーションすることをお勧めします。人工的に生成されたテキストを使用していることを読者に伝えてください。

学習

学習データセット

the Pileは、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルの学習用に特別に作成されました。これは22の多様なソースからのテキストを含み、大まかに5つのカテゴリに分けられます：学術論文（例：arXiv）、インターネット（例：CommonCrawl）、散文（例：Project Gutenberg）、対話（例：YouTube字幕）、その他（例：GitHub、Enron Emails）。すべてのデータソースの内訳、方法論、および倫理的な影響の議論については、the Pile paperを参照してください。the Pileとその構成データセットに関するより詳細なドキュメントについては、データシートを参照してください。the Pileは公式ウェブサイトまたはコミュニティミラーからダウンロードできます。

the Pileは、Pile-T5を学習する前に重複排除されました。

学習手順

Pile-T5は、バッチサイズ約100万トークン（各512トークンの2048シーケンス）で、合計200万ステップ学習されました。Pile-T5は、スパン破損目的で学習されました。

学習チェックポイント

Pile-T5の中間チェックポイントは、このリポジトリ内でアクセス可能です。合計200のチェックポイントがあり、10,000ステップごとに保存されています。T5xライブラリでファインチューニングに使用できるT5xネイティブのチェックポイントについては、こちらを参照してください。

学習損失（tfevent形式）と検証パープレキシティ（jsonl形式）は、こちらで見つけることができます。

評価

Pile-T5 XXLは、SuperGLUE、CodeXGLUEで評価されました。Flanでファインチューニングされたバージョンは、Flan Held Inタスク、MMLU、BBHで評価されました。結果はブログ記事で確認できます。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

BibTeX

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}