Pythia - 410mオープンソース言語モデル - 解釈可能性の研究を支援し、複数のパラメータとチェックポイントを選択可能

ホーム

Pythia 410m

EleutherAIによって開発

PythiaはEleutherAIが開発した一連の因果言語モデルで、説明可能性研究のために設計されており、7000万から120億パラメータまでの8つのサイズを含み、154のトレーニングチェックポイントを提供します

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #因果言語モデル #説明可能性研究 #マルチチェックポイント追跡

ダウンロード数 83.28k

リリース時間 : 2/13/2023

モデル概要

Transformerベースの英語言語モデルで、GPT-NeoXアーキテクチャを採用し、Pileデータセットでトレーニングされ、主に大規模言語モデルの動作と機能の研究に使用されます

モデル特徴

完全なトレーニングチェックポイント

154のトレーニング中間チェックポイントを提供し、モデルの進化過程の研究を容易にします

科学的実験設計

すべてのサイズのモデルが同じトレーニングデータと順序を使用し、実験の比較可能性を確保します

性能ベンチマーク

同規模のモデル（OPT、GPT-Neoなど）と同等またはそれ以上の性能を達成します

重複除去比較

各サイズに対して、元のデータとグローバルな重複除去データでトレーニングされた2つのバージョンを提供します

モデル能力

英語テキスト生成

言語モデル動作研究

モデル説明可能性分析

使用事例

学術研究

言語モデル動作分析

異なるトレーニング段階でのモデルのパラメータ変化パターンを研究します

154のチェックポイントを通じてモデルの能力発展を追跡可能

重複除去データ影響研究

元のデータと重複除去データでトレーニングされたモデルの性能差を比較します

技術検証

中規模モデルベンチマークテスト

4億パラメータレベルのリファレンスモデルとして技術比較を行います

同類のOPT-350Mモデルよりも優れた性能

🚀 ピュチア-410M

ピュチアスケーリングスイートは、解釈可能性の研究を容易にするために開発されたモデルのコレクションです(論文を参照)。これには、70M、160M、410M、1B、1.4B、2.8B、6.9B、および12Bのサイズの2セット8つのモデルが含まれています。各サイズには、2つのモデルがあります。1つはPileでトレーニングされたもの、もう1つはデータセットがグローバルに重複排除された後のPileでトレーニングされたものです。すべての8つのモデルサイズは、まったく同じデータをまったく同じ順序でトレーニングされています。また、各モデルについて154の中間チェックポイントを提供しており、これらはHugging Face上でブランチとしてホストされています。

ピュチアモデルスイートは、大規模言語モデルに関する科学的研究、特に解釈可能性の研究を促進するために意図的に設計されています。下流のパフォーマンスを設計目標として中心に置いていないにもかかわらず、これらのモデルは同等または同じサイズのモデル（OPTやGPT - Neoスイートのモデルなど）のパフォーマンスに匹敵するか、それを上回っていることがわかっています。

以前の早期リリースと命名規則の詳細

以前、私たちはピュチアスイートの早期バージョンを公開しました。しかし、いくつかのハイパーパラメータの不一致を解消するために、モデルスイートを再トレーニングすることにしました。このモデルカードでは変更点をリストしています。詳細な議論については、ピュチアの論文の付録Bを参照してください。2つのピュチアバージョンのベンチマークパフォーマンスには違いがありませんでした。古いモデルは依然として利用可能ですが、ピュチアを初めて使用する場合は、再トレーニングされたスイートをおすすめします。
これが現在のリリースです。

なお、ピュチアスイートのすべてのモデルは2023年1月に名前が変更されました。明確化のために、このモデルカードには古い名前と新しい名前を比較した表が、正確なパラメータ数とともに提供されています。

✨ 主な機能

解釈可能性の研究を容易にするために開発されたモデルコレクションです。
8つの異なるサイズのモデルがあり、各サイズには重複排除されたバージョンと重複排除されていないバージョンがあります。
各モデルに154の中間チェックポイントが提供されています。
大規模言語モデルの科学的研究、特に解釈可能性の研究を促進するように設計されています。

📚 ドキュメント

モデルの詳細

属性	详情
開発者	EleutherAI
モデルタイプ	Transformerベースの言語モデル
言語	英語
詳細情報	ピュチアのGitHubリポジトリでトレーニング手順、設定ファイル、および使用方法の詳細を確認できます。論文を参照すると、より多くの評価と実装の詳細が得られます。
ライブラリ	[GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
ライセンス	Apache 2.0
問い合わせ先	このモデルに関する質問は、EleutherAI Discordに参加し、`#release - discussion`で投稿してください。EleutherAI Discordで質問する前に、既存のピュチアのドキュメントを読んでください。一般的な問い合わせは、contact@eleuther.aiまで。

ピュチアモデル	非埋め込みパラメータ	レイヤー	モデル次元	ヘッド	バッチサイズ	学習率	同等のモデル
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

ピュチアスイートのエンジニアリング詳細。特定のサイズの重複排除されたモデルと重複排除されていないモデルは同じハイパーパラメータを持ちます。「同等」のモデルはまったく同じアーキテクチャと同じ数の非埋め込みパラメータを持ちます。

使用方法と制限事項

意図された使用方法

ピュチアの主な使用目的は、大規模言語モデルの動作、機能、および制限に関する研究です。このスイートは、科学的実験を行うためのコントロールされた環境を提供することを目的としています。また、各モデルについて154のチェックポイントを提供しています。初期のstep0、10の対数間隔のチェックポイントstep{1,2,4...512}、およびstep1000からstep143000までの143の均等間隔のチェックポイントです。これらのチェックポイントはHugging Face上でブランチとしてホストされています。なお、ブランチ143000は、各モデルのmainブランチ上のモデルチェックポイントとまったく同じです。

また、ピュチア - 410Mをデプロイのためにさらにファインチューニングして適用することもできますが、使用はApache 2.0ライセンスに準拠する必要があります。ピュチアモデルはHugging FaceのTransformersライブラリと互換性があります。事前学習されたピュチア - 410Mをファインチューニングモデルの基礎として使用することを決めた場合は、独自のリスクとバイアス評価を行ってください。

想定外の使用方法

ピュチアスイートはデプロイを目的としていません。それ自体が製品ではなく、人との対話に使用することはできません。たとえば、モデルは有害または不快なテキストを生成する可能性があります。特定のユースケースに関連するリスクを評価してください。

ピュチアモデルは英語のみに対応しており、翻訳や他の言語のテキスト生成には適していません。

ピュチア - 410Mは、文章の執筆や商用チャットボットなど、言語モデルが一般的にデプロイされる下流のコンテキストに合わせてファインチューニングされていません。これは、ピュチア - 410Mが、ChatGPTのような製品のように与えられたプロンプトに応答しないことを意味します。これは、ChatGPTとは異なり、ピュチア - 410Mは人間のフィードバックによる強化学習（RLHF）などの方法でファインチューニングされていないためです。

制限事項とバイアス

大規模言語モデルの核心機能は、テキストの文字列を受け取り、次のトークンを予測することです。モデルが使用するトークンは、最も「正確」なテキストを生成する必要はありません。ピュチア - 410Mが事実上正確な出力を生成することに決して依存しないでください。

このモデルはPileという、不適切な表現や下品または不快なテキストが含まれることが知られているデータセットでトレーニングされています。性別、宗教、および人種に関する文書化されたバイアスについての議論は、Pileの論文のセクション6を参照してください。ピュチア - 410Mは、プロンプト自体に明示的に不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。

たとえば、ホストされた推論APIを通じて生成されたテキストを使用する予定の場合は、他の人に提示する前に、この言語モデルの出力を人間が精査することをおすすめします。テキストがピュチア - 410Mによって生成されたことを聴衆に伝えてください。

トレーニング

トレーニングデータ

Pileは、英語の825GiBの汎用データセットです。これは、大規模言語モデルのトレーニング用にEleutherAIによって作成されました。これには、22の多様なソースからのテキストが含まれており、大まかに5つのカテゴリに分けられます。学術論文（例：arXiv）、インターネット（例：CommonCrawl）、散文（例：Project Gutenberg）、対話（例：YouTube字幕）、およびその他（例：GitHub、Enron Emails）です。すべてのデータソースの内訳、方法論、および倫理的な影響に関する議論については、Pileの論文を参照してください。Pileとその構成データセットに関するより詳細なドキュメントについては、データシートを参照してください。Pileは公式ウェブサイトまたは[コミュニティミラー](https://the - eye.eu/public/AI/pile/)からダウンロードできます。
Pileはピュチア - 410Mをトレーニングする前に重複排除されていません。

トレーニング手順

すべてのモデルは、まったく同じデータをまったく同じ順序でトレーニングされています。各モデルはトレーニング中に299,892,736,000トークンを見ており、各モデルについて143のチェックポイントが2,097,152,000トークンごとに保存されています。これらはトレーニング全体を通じて均等に間隔を空けており、step1000からstep143000（mainと同じ）までです。さらに、頻繁な初期チェックポイントも提供しています。step0とstep{1,2,4...512}です。これは、重複排除されていないモデルについてはPileで1エポック弱、重複排除されたPileでは約1.5エポックのトレーニングに相当します。

すべてのピュチアモデルは、バッチサイズ2M（2,097,152トークン）で143000ステップトレーニングされています。
トレーニング手順の詳細、[再現方法](https://github.com/EleutherAI/pythia/blob/main/README.md#reproducing - training)を含め、GitHubを参照してください。
ピュチアは[GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b)と同じトークナイザーを使用しています。

評価

すべての16のピュチアモデルは、[LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness)を使用して評価されました。モデルとステップごとの結果にアクセスするには、GitHubリポジトリのresults/json/*を参照してください。
以下のセクションを展開すると、すべてのピュチアとピュチア重複排除モデルの評価結果のプロットが、OPTおよびBLOOMと比較して表示されます。

LAMBADA – OpenAI

Physical Interaction: Question Answering (PIQA)

WinoGrande

AI2 Reasoning Challenge—Easy Set

SciQ

変更履歴

このセクションでは、以前にリリースされたPythia v0と現在のモデルの違いを比較しています。これらの変更とその背後にある動機についての詳細な議論は、ピュチアの論文の付録Bを参照してください。ピュチアを再トレーニングしてもベンチマークパフォーマンスに影響がないことがわかりました。

すべてのモデルサイズが現在、2Mトークンの均一なバッチサイズでトレーニングされています。以前は、160M、410M、および1.4Bパラメータのモデルが4Mトークンのバッチサイズでトレーニングされていました。
初期化時（ステップ0）とステップ{1,2,4,8,16,32,64,128,256,512}にチェックポイントを追加しました。また、トレーニングステップ1000ごとにもチェックポイントを追加しました。
新しく再トレーニングされたスイートではFlash Attentionが使用されています。
元のスイートに存在していたわずかな不一致を修正しました。2.8Bパラメータ以下のすべてのモデルは、学習率（LR）が最小LRまで減衰するスケジュールを使用していましたが、この最小LRは開始LRの10％でした。一方、6.9Bおよび12Bのモデルは、最小LRが0まで減衰するLRスケジュールを使用していました。再トレーニングでは、この不一致を修正しました。すべてのモデルが現在、最大LRの0.1倍まで減衰するLRでトレーニングされています。

命名規則とパラメータ数

ピュチアモデルは2023年1月に名前が変更されました。古い命名規則が誤って一部のドキュメントに残っている可能性があります。現在の命名規則（70M、160Mなど）は総パラメータ数に基づいています。

現在のピュチアサフィックス	古いサフィックス	総パラメータ数	非埋め込みパラメータ数
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200

💻 使用例

基本的な使用法

# Pythia models can be loaded and used via the following code, demonstrated here 
# for the third `pythia-70m-deduped` checkpoint:
from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

Revision/branch step143000 corresponds exactly to the model checkpoint on the main branch of each model.
For more information on how to use all Pythia models, see documentation on GitHub.