Pythia - 2.8bオープンソース言語モデル - 大規模言語モデルの解釈可能性研究を支援する実用的なツール

Pythia 2.8b

EleutherAIによって開発

Pythia-28億はEleutherAIが開発したスケーラブルな言語モデルスイートの一員で、大規模言語モデルの解釈可能性研究を促進するために設計されています。このモデルはTransformerアーキテクチャに基づいており、The Pileデータセットでトレーニングされ、28億のパラメータを持っています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #解釈可能性研究 #因果言語モデル #英語テキスト生成

ダウンロード数 40.38k

リリース時間 : 2/13/2023

モデル概要

Pythia-28億はTransformerアーキテクチャに基づく因果言語モデルで、Pythiaスケーラブルモデルスイートの一部です。このスイートは科学研究のための制御環境を提供することを目的としており、特に大規模言語モデルの動作、機能、限界の研究に焦点を当てています。

モデル特徴

科学研究のための制御環境

大規模言語モデルの解釈可能性研究を促進するために設計されており、標準化されたトレーニングプロセスとチェックポイントを提供します

完全なトレーニングチェックポイント

初期step0、10の対数間隔チェックポイント、143の均等間隔チェックポイントを含む154の中間チェックポイントを提供します

標準化されたトレーニングデータ

すべてのPythiaモデルは完全に同じトレーニングデータと順序でトレーニングされており、比較研究が容易です

モデル能力

英語テキスト生成

言語モデリング

テキスト補完

使用事例

科学研究

言語モデルの動作研究

大規模言語モデルの異なるトレーニング段階における進化プロセスを研究します

モデルの解釈可能性分析

モデルの内部動作メカニズムと意思決定プロセスを分析します

🚀 Pythia-2.8B

Pythia Scaling Suiteは、解釈可能性の研究を促進するために開発されたモデルのコレクションです(論文を参照)。このコレクションには、70M、160M、410M、1B、1.4B、2.8B、6.9B、および12Bのサイズの2セット8種類のモデルが含まれています。各サイズには、Pileで訓練されたモデルと、データセットがグローバルに重複排除された後のPileで訓練されたモデルの2つのモデルがあります。すべての8つのモデルサイズは、まったく同じデータをまったく同じ順序で訓練しています。また、各モデルについて154の中間チェックポイントを提供しており、これらはHugging Face上にブランチとしてホストされています。

Pythiaモデルセットは、大規模言語モデルの科学的研究、特に解釈可能性の研究を促進するために意図的に設計されています。下流のパフォーマンスを設計目標として中心に置いていないにもかかわらず、これらのモデルは類似および同サイズのモデル（OPTやGPT - Neoセットのモデルなど）のパフォーマンスに匹敵するか、それを上回ることがわかっています。

以前の早期リリースと命名規則の詳細

以前、私たちはPythiaセットの早期バージョンを公開しました。しかし、いくつかのハイパーパラメータの不一致を解消するために、モデルセットを再訓練することにしました。このモデルカードには変更点が記載されています。詳細な議論については、Pythia論文の付録Bを参照してください。2つのPythiaバージョンのベンチマークパフォーマンスに差は見られませんでした。古いモデルは依然として利用可能ですが、Pythiaを初めて使用する場合は、再訓練されたセットをおすすめします。
これが現在のリリースです。

2023年1月に、Pythiaセットのすべてのモデルの名前が変更されました。明確化のために、このモデルカードには旧名と新名を比較した表が、正確なパラメータ数とともに提供されています。

🚀 クイックスタート

Pythiaモデルは、以下のコードを使ってロードし、使用することができます。ここでは、3番目のpythia - 70m - dedupedチェックポイントを例に示します。

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

リビジョン/ブランチstep143000は、各モデルのmainブランチ上のモデルチェックポイントに正確に対応しています。
すべてのPythiaモデルの使用方法の詳細については、GitHub上のドキュメントを参照してください。

✨ 主な機能

大規模言語モデルの解釈可能性研究を容易にするために開発されたモデルコレクションです。
同じサイズのモデルに比べて、パフォーマンスが同等以上です。
各モデルに154の中間チェックポイントが提供されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

💻 使用例

基本的な使用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

高度な使用法

このREADMEに高度な使用法のコード例が記載されていないため、このサブセクションを省略します。

📚 ドキュメント

モデル詳細

開発元: EleutherAI
モデルタイプ: Transformerベースの言語モデル
言語: 英語
詳細情報: 訓練手順、設定ファイル、および使用方法の詳細については、PythiaのGitHubリポジトリを参照してください。より多くの評価と実装の詳細については、論文を参照してください。
ライブラリ: [GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
ライセンス: Apache 2.0
問い合わせ先: このモデルに関する質問は、EleutherAI Discordに参加し、#release - discussionに投稿してください。EleutherAI Discordで質問する前に、既存のPythiaドキュメントを読んでください。一般的な問い合わせについては、contact@eleuther.aiまでお問い合わせください。

属性	詳情
モデルタイプ	Transformerベースの言語モデル
訓練データ	The Pile

Pythiaモデル	非埋め込みパラメータ	レイヤー	モデル次元	ヘッド	バッチサイズ	学習率	同等のモデル
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

Pythia Suiteのエンジニアリング詳細。特定のサイズの重複排除済みと未重複排除のモデルは、同じハイパーパラメータを持っています。「同等の」モデルは、まったく同じアーキテクチャと同じ数の非埋め込みパラメータを持っています。

用途と制限

意図された用途

Pythiaの主な意図された用途は、大規模言語モデルの動作、機能、および制限に関する研究です。このセットは、科学的実験を行うためのコントロールされた環境を提供することを目的としています。また、各モデルに154のチェックポイントを提供しています。初期のstep0、10の対数間隔のチェックポイントstep{1,2,4...512}、およびstep1000からstep143000までの143の等間隔のチェックポイントです。これらのチェックポイントは、Hugging Face上にブランチとしてホストされています。ブランチ143000は、各モデルのmainブランチ上のモデルチェックポイントに正確に対応しています。

また、Pythia - 2.8Bをさらにファインチューニングしてデプロイに適用することもできますが、使用はApache 2.0ライセンスに準拠する必要があります。Pythiaモデルは、Hugging FaceのTransformers Libraryと互換性があります。事前学習されたPythia - 2.8Bをファインチューニングモデルの基礎として使用する場合は、独自のリスクとバイアス評価を行ってください。

想定外の使用

Pythia Suiteはデプロイを目的としていません。それ自体が製品ではなく、人間との対話に使用することはできません。たとえば、モデルは有害または不快なテキストを生成する可能性があります。特定のユースケースに関連するリスクを評価してください。

Pythiaモデルは英語のみに対応しており、翻訳や他の言語のテキスト生成には適していません。

Pythia - 2.8Bは、文章の執筆や商用チャットボットなど、言語モデルが一般的にデプロイされる下流のコンテキストでファインチューニングされていません。これは、Pythia - 2.8Bが、ChatGPTのような製品のように、与えられたプロンプトに応答しないことを意味します。これは、ChatGPTが人間のフィードバックによる強化学習（RLHF）などの方法を使用してファインチューニングされ、人間の指示によりよく「従う」ようになっているのに対し、このモデルはそうではないからです。

制限とバイアス

大規模言語モデルの核心的な機能は、テキストの文字列を受け取り、次のトークンを予測することです。モデルが使用するトークンは、最も「正確」なテキストを生成する必要はありません。Pythia - 2.8Bが事実的に正確な出力を生成することに決して依存しないでください。

このモデルは、the Pileという、不適切な言葉や猥褻または不快なテキストを含むことが知られているデータセットで訓練されています。性別、宗教、および人種に関する文書化されたバイアスについての議論については、Pile論文のセクション6を参照してください。Pythia - 2.8Bは、プロンプト自体に明示的に不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。

たとえば、Hosted Inference APIを通じて生成されたテキストを使用する予定の場合、他の人に提示する前に、この言語モデルの出力を人間が精査することをおすすめします。テキストがPythia - 2.8Bによって生成されたことを聴衆に知らせてください。

訓練

訓練データ

The Pileは、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルの訓練用に特別に作成されました。このデータセットには、22の多様なソースからのテキストが含まれており、大まかに5つのカテゴリに分けられます。学術論文（例：arXiv）、インターネット（例：CommonCrawl）、散文（例：Project Gutenberg）、対話（例：YouTube字幕）、およびその他（例：GitHub、Enron Emails）です。すべてのデータソースの内訳、方法論、および倫理的な影響に関する議論については、Pile論文を参照してください。The Pileとその構成データセットに関するより詳細なドキュメントについては、データシートを参照してください。The Pileは、公式ウェブサイトまたはコミュニティミラーからダウンロードできます。
The Pileは、Pythia - 2.8Bを訓練する前に重複排除されていません。

訓練手順

すべてのモデルは、まったく同じデータをまったく同じ順序で訓練しています。各モデルは、訓練中に299,892,736,000トークンを見ており、各モデルについて143のチェックポイントが、2,097,152,000トークンごとに、step1000からstep143000（mainと同じ）まで等間隔に保存されています。さらに、頻繁な初期チェックポイントも提供しています。step0とstep{1,2,4...512}です。これは、重複排除されていないモデルの場合はThe Pile上で1エポック弱、重複排除されたThe Pile上では約1.5エポックの訓練に相当します。

すべてのPythiaモデルは、バッチサイズ2M（2,097,152トークン）で143000ステップ訓練されています。
訓練手順の詳細、および再現方法については、GitHubを参照してください。
Pythiaは、[GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b)と同じトークナイザーを使用しています。

評価

すべての16のPythiaモデルは、[LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness)を使用して評価されました。モデルとステップごとの結果にアクセスするには、GitHubリポジトリのresults/json/*を参照してください。
以下のセクションを展開すると、すべてのPythiaおよびPythia - dedupedモデルの評価結果のプロットが、OPTおよびBLOOMと比較して表示されます。

LAMBADA – OpenAI

Physical Interaction: Question Answering (PIQA)

WinoGrande

AI2 Reasoning Challenge—Easy Set

SciQ

変更履歴

このセクションでは、以前にリリースされたPythia v0と現在のモデルの違いを比較しています。これらの変更とその背景についての詳細な議論については、Pythia論文の付録Bを参照してください。Pythiaを再訓練しても、ベンチマークパフォーマンスに影響はないことがわかりました。

すべてのモデルサイズが、均一なバッチサイズ2Mトークンで訓練されるようになりました。以前は、160M、410M、および1.4Bパラメータのモデルが4Mトークンのバッチサイズで訓練されていました。
初期化時（step 0）とステップ{1,2,4,8,16,32,64,128,256,512}にチェックポイントが追加されました。また、1000トレーニングステップごとにもチェックポイントが保存されます。
新しい再訓練されたセットでは、Flash Attentionが使用されています。
元のセットに存在していた小さな不一致を修正しました。2.8Bパラメータ以下のすべてのモデルは、学習率（LR）スケジュールが最小LRを開始LRの10％に減衰させていましたが、6.9Bおよび12Bのモデルはすべて、最小LRを0に減衰させるLRスケジュールを使用していました。再実行されたトレーニングランでは、この不一致を修正しました。すべてのモデルが、最大LRの0.1倍まで減衰するLRで訓練されるようになりました。

命名規則とパラメータ数

2023年1月に、Pythiaモデルの名前が変更されました。誤って、古い命名規則が一部のドキュメントに残っている可能性があります。現在の命名規則（70M、160Mなど）は、総パラメータ数に基づいています。

現在のPythiaサフィックス	旧サフィックス	総パラメータ	非埋め込みパラメータ
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200