Pile-T5-baseオープンソースモデル - 特定のデータセットを基に訓練し、効率的なエンコードとデコードアプリケーションを実現

ホーム

Pile T5 Base

EleutherAIによって開発

Pile-T5基本版はT5xライブラリを使用し、The Pileデータセットで訓練されたエンコーダ-デコーダモデルで、MLM目標で200万ステップ、約2兆トークン訓練されています。

大規模言語モデル

Transformers

英語#英語テキスト再構築 #エンコーダ-デコーダアーキテクチャ #大規模事前学習

ダウンロード数 50

リリース時間 : 1/17/2024

モデル概要

Pile-T5は主に研究用途を目的としており、学習された英語の内部表現は下流タスクの特徴抽出に使用できます。Transformersライブラリと互換性があり、微調整と展開をサポートします。

モデル特徴

大規模事前学習

825GBのThe Pileデータセットで訓練され、22種類の英語テキストソースをカバー

T5xアーキテクチャ最適化

T5xスケーラブルモデルアーキテクチャを採用し、UMT5を参考にLlamaTokenizerを使用

研究指向設計

テキスト表現能力の抽出に焦点を当て、直接展開ではなく下流タスクの微調整に適しています

モデル能力

テキスト生成

マスク言語モデリング

テキスト特徴抽出

使用事例

学術研究

言語モデル研究

大規模事前学習モデルの行動と表現学習を研究するために使用

下流タスクベンチマークテスト

SuperGLUEなどのベンチマークで基本モデルとして微調整評価

性能指標は公式ブログを参照

産業応用

カスタマイズNLPソリューション

Apache 2.0ライセンスに基づき、ドメイン適応微調整を実施

リスクとバイアスは自己評価が必要

🚀 Pile-T5 Base

Pile-T5 Baseは、T5xライブラリを使用してthe Pileで学習されたエンコーダ・デコーダモデルです。このモデルは、元のT5モデルと同様のMLM目的で、200万ステップ、またはおよそ2兆トークンの学習を行いました。Pile-T5 BaseのHFバージョンは、T5xの拡張可能なモデル実装を使用し、LlamaTokenizerを用いるUMT5のモデル実装を借りています。

🚀 クイックスタート

Pile-T5 Baseを使用するには、以下のコードを実行します。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-base")

✨ 主な機能

英語の内部表現を学習し、下流タスクに有用な特徴を抽出できます。
Transformers Libraryと互換性があり、微調整が可能です。

📚 ドキュメント

モデルの詳細

プロパティ	詳細
開発者	EleutherAI
モデルタイプ	Transformerベースの言語モデル
言語	英語
詳細情報	ブログ記事。学習データセットの詳細については、the Pile paperとそのデータシートを参照してください。
ライセンス	Apache 2.0
問い合わせ先	このモデルに関する質問は、EleutherAI Discordに参加し、`#release-discussion`に投稿してください。Discordでモデルに関する質問をする前に、既存のGPT-NeoX - 20Bのドキュメントを読んでください。一般的な連絡は、contact@eleuther.aiまで。

| ハイパーパラメータ | 値 | | -------------------------- | ----------- | | n_parameters | 247586304 | | n_{encoder layers} | 12 | | n_{decoder layers} | 12 | | d_model | 2048 | | d_emb | 768 | | n_heads | 12 | | d_head | 64 | | n_vocab | 32128 | | シーケンス長 | 512 |

使用方法と制限

想定される使用方法

Pile-T5は主に研究目的で開発されました。英語の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。科学的な用途に加え、Apache 2.0ライセンスに従う限り、Pile-T5を微調整してデプロイに適用することもできます。このモデルはTransformers Libraryと互換性があります。事前学習されたPile-T5を微調整モデルの基礎として使用する場合は、独自のリスクとバイアス評価を行う必要があります。

想定外の使用方法

Pile-T5はそのままでのデプロイを想定していません。製品ではなく、監督なしで人間との対話に使用することはできません。Pile-T5は、言語モデルが一般的にデプロイされる下流タスク、例えばジャンル散文の執筆や商用チャットボットなどに対して微調整されていません。これは、Pile-T5がChatGPTのような製品と同じように与えられたプロンプトに応答する可能性が低いことを意味します。これは、ChatGPTが人間のフィードバックによる強化学習（RLHF）などの方法で微調整され、人間の指示や対話をよりよく「理解」するようになっているのに対し、Pile-T5はそうではないからです。このモデルは英語のみに対応しているため、翻訳や他の言語のテキスト生成には使用できません。

制限とバイアス

Pile-T5の核心機能は、一部がマスクトークンに置き換えられたテキスト文字列を受け取り、それらのマスクトークンを置き換えるトークンのシーケンスを予測することです。統計的に最も可能性の高いトークンのシーケンスが最も「正確」なテキストになるとは限らないことを忘れないでください。Pile-T5が事実上正確な出力を生成することに決して依存しないでください。このモデルはthe Pileで学習されており、このデータセットには不適切な表現や露骨なテキストが含まれていることが知られています。性別、宗教、人種に関する文書化されたバイアスについての議論は、the Pile paperのセクション6を参照してください。Pile-T5は、プロンプト自体に明示的な不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。このモデルの出力を人間の読者に提示する前に、出力を選別することをお勧めします。人工的に生成されたテキストを使用していることを読者に伝えてください。

学習

学習データセット

The Pileは、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルの学習用に特別に作成されました。22の多様なソースからのテキストが含まれており、大まかに5つのカテゴリに分けられます：学術論文（例：arXiv）、インターネット（例：CommonCrawl）、散文（例：Project Gutenberg）、対話（例：YouTube字幕）、その他（例：GitHub、Enron Emails）。すべてのデータソースの内訳、方法論、および倫理的な影響に関する議論については、the Pile paperを参照してください。The Pileとその構成データセットに関するより詳細なドキュメントについては、データシートを参照してください。The Pileは公式ウェブサイトまたはコミュニティミラーからダウンロードできます。The Pileは、Pile-T5を学習する前に重複排除されました。

学習手順

Pile-T5は、バッチサイズ約100万トークン（各512トークンの2048シーケンス）で、合計200万ステップ学習されました。Pile-T5は、スパン破損目的で学習されました。

学習チェックポイント

Pile-T5の中間チェックポイントはこのリポジトリ内でアクセス可能です。合計200のチェックポイントがあり、10,000ステップごとに保存されています。T5xライブラリで微調整に使用できるT5xネイティブのチェックポイントについては、こちらを参照してください。学習損失（tfevent形式）と検証パープレキシティ（jsonl）はこちらで見つけることができます。

評価

Pile-T5 Baseは、SuperGLUE、CodeXGLUEで評価されました。Flanで微調整されたバージョンは、Flan Held Inタスクで評価されました。結果はブログ記事で確認できます。

📄 ライセンス

このモデルはApache 2.0ライセンスの下で提供されています。

BibTeX

@misc{2024PileT5,
  author  = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
  title   = {Pile-T5},
  year    = {2024},
  url     = {https://blog.eleuther.ai/pile-t5/},
  note    = {Blog post},
}