Pythia - 1.4bオープンソース言語モデル - 無料利用で説明可能性の研究を支援

ホーム

Pythia 1.4b

EleutherAIによって開発

Pythia-1.4BはEleutherAIが開発した12億パラメータの因果言語モデルで、Pythiaスケールスイートの一部であり、解釈可能性研究のために設計されています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #因果言語モデル #解釈可能性研究 #マルチチェックポイント追跡

ダウンロード数 60.98k

リリース時間 : 2/9/2023

モデル概要

Transformerアーキテクチャに基づく英語言語モデルで、Pileデータセットで訓練され、大規模言語モデルの動作と機能を研究するために使用されます。

モデル特徴

解釈可能性研究

大規模言語モデルの科学研究、特に解釈可能性研究を促進するために特別に設計されています。

完全な訓練チェックポイント

154個の中間チェックポイントを提供し、モデル訓練プロセス中の動作変化を研究するのに便利です。

標準化された訓練

すべてのスケールモデルが完全に同じデータと順序で訓練され、実験の比較可能性を確保します。

モデル能力

英語テキスト生成

言語モデル研究

テキスト補完

使用事例

学術研究

言語モデル動作分析

異なる訓練段階でのパラメータ変化と動作パターンを研究する

解釈可能性実験

モデルの意思決定プロセスと内部表現を分析する

🚀 Pythia-1.4B

Pythia Scaling Suiteは、解釈可能性の研究を促進するために開発されたモデルのコレクションです。このモデルセットは、大規模言語モデルの科学的研究、特に解釈可能性の研究を推進するように意図的に設計されています。

🚀 クイックスタート

Pythiaモデルは、以下のコードを使用してロードおよび使用できます。ここでは、3番目のpythia-70m-dedupedチェックポイントを例に示します。

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

リビジョン/ブランチstep143000は、各モデルのmainブランチ上のモデルチェックポイントに正確に対応しています。すべてのPythiaモデルの使用方法の詳細については、GitHubのドキュメントを参照してください。

✨ 主な機能

Pythia Scaling Suiteは、解釈可能性の研究を促進するために開発されたモデルのコレクションです。2セットの8つのモデルが含まれ、それぞれ70M、160M、410M、1B、1.4B、2.8B、6.9B、および12Bのサイズです。各サイズには、Pileでトレーニングされたモデルと、データセットがグローバルに重複排除された後のPileでトレーニングされたモデルの2つがあります。すべての8つのモデルサイズは、まったく同じデータを同じ順序でトレーニングしています。また、各モデルについて154の中間チェックポイントを提供しており、Hugging Face上にブランチとしてホストされています。

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

📚 ドキュメント

モデルの詳細

開発者: EleutherAI
モデルタイプ: Transformerベースの言語モデル
言語: 英語
詳細情報: PythiaのGitHubリポジトリでトレーニング手順、設定ファイル、および使用方法の詳細を確認できます。また、論文でより多くの評価と実装の詳細を確認できます。
ライブラリ: GPT-NeoX
ライセンス: Apache 2.0
問い合わせ先: このモデルに関する質問は、EleutherAI Discord に参加し、#release-discussion で投稿してください。EleutherAI Discordで質問する前に、既存の Pythia ドキュメントを読んでください。一般的な連絡は、contact@eleuther.ai まで。

プロパティ	詳細
モデルタイプ	Transformerベースの言語モデル
トレーニングデータ	The Pile は、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルのトレーニング用に特別に作成されました。22の多様なソースからのテキストが含まれ、大まかに5つのカテゴリに分類されます：学術論文（例：arXiv）、インターネット（例：CommonCrawl）、散文（例：Project Gutenberg）、対話（例：YouTube字幕）、およびその他（例：GitHub、Enron Emails）。

プロパティ

詳細

モデルタイプ

Transformerベースの言語モデル

トレーニングデータ

Pythiaモデル	非埋め込みパラメータ	レイヤー	モデル次元	ヘッド	バッチサイズ	学習率	同等のモデル
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT-Neo 125M, OPT-125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT-350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT-Neo 1.3B, OPT-1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT-Neo 2.7B, OPT-2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT-6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

Pythia Suiteのエンジニアリング詳細。特定のサイズの重複排除済みと未排除のモデルは、同じハイパーパラメータを持ちます。「同等の」モデルは、まったく同じアーキテクチャと同じ数の非埋め込みパラメータを持ちます。

使用方法と制限事項

意図された使用方法

Pythiaの主な意図された使用方法は、大規模言語モデルの振る舞い、機能、および制限に関する研究です。このスイートは、科学的実験を行うためのコントロールされた環境を提供することを目的としています。また、各モデルについて154のチェックポイントを提供しています：初期のstep0、10個の対数間隔のチェックポイントstep{1,2,4...512}、およびstep1000からstep143000までの143個の均等間隔のチェックポイント。これらのチェックポイントは、Hugging Face上にブランチとしてホストされています。ブランチ143000は、各モデルのmainブランチ上のモデルチェックポイントに正確に対応しています。

Pythia-1.4Bをデプロイのためにさらに微調整して適用することもできますが、使用はApache 2.0ライセンスに準拠する必要があります。Pythiaモデルは、Hugging FaceのTransformers Libraryと互換性があります。事前学習済みのPythia-1.4Bを微調整モデルの基礎として使用することを決定した場合は、独自のリスクとバイアス評価を行ってください。

想定外の使用方法

Pythia Suiteは、デプロイを目的としていません。それ自体が製品ではなく、人との対話には使用できません。たとえば、モデルは有害または不快なテキストを生成する可能性があります。特定のユースケースに関連するリスクを評価してください。

Pythiaモデルは英語のみに対応しており、翻訳や他の言語のテキスト生成には適していません。

Pythia-1.4Bは、言語モデルが一般的にデプロイされる下流のコンテキスト（例：ジャンル散文の執筆や商用チャットボット）に対して微調整されていません。これは、Pythia-1.4Bが、ChatGPTのような製品のように与えられたプロンプトに応答しないことを意味します。これは、ChatGPTが人間のフィードバックによる強化学習（RLHF）などの方法を使用して微調整され、人間の指示をよりよく「従う」ようになっているのに対し、このモデルはそのような微調整が行われていないためです。

制限事項とバイアス

大規模言語モデルの核心的な機能は、テキストの文字列を受け取り、次のトークンを予測することです。モデルが使用するトークンは、最も「正確な」テキストを生成する必要はありません。Pythia-1.4Bが事実的に正確な出力を生成することに決して依存しないでください。

このモデルは、the Pileという、不適切な表現や猥褻または不快なテキストを含むことが知られているデータセットでトレーニングされています。性別、宗教、および人種に関する文書化されたバイアスについての議論は、the Pile論文のセクション6を参照してください。Pythia-1.4Bは、プロンプト自体に明示的に不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。

たとえば、Hosted Inference APIを介して生成されたテキストを使用する予定の場合は、他の人に提示する前に、この言語モデルの出力を人間が選別することをお勧めします。テキストがPythia-1.4Bによって生成されたことを聴衆に伝えてください。

トレーニング

トレーニングデータ

The Pileは、英語の825GiBの汎用データセットです。EleutherAIによって大規模言語モデルのトレーニング用に特別に作成されました。22の多様なソースからのテキストが含まれ、大まかに5つのカテゴリに分類されます：学術論文（例：arXiv）、インターネット（例：CommonCrawl）、散文（例：Project Gutenberg）、対話（例：YouTube字幕）、およびその他（例：GitHub、Enron Emails）。すべてのデータソースの内訳、方法論、および倫理的な影響に関する議論については、the Pile論文を参照してください。The Pileとその構成データセットに関するより詳細なドキュメントについては、データシートを参照してください。The Pileは、公式ウェブサイトまたはコミュニティミラーからダウンロードできます。

The Pileは、Pythia-1.4Bをトレーニングする前に重複排除されていません。

トレーニング手順

すべてのモデルは、まったく同じデータを同じ順序でトレーニングしています。各モデルは、トレーニング中に299,892,736,000トークンを見ており、各モデルについて143のチェックポイントが、トレーニング全体を通じて均等に間隔を空けて、2,097,152,000トークンごとに保存されています。step1000からstep143000（これはmainと同じです）までです。さらに、頻繁な初期チェックポイントも提供しています：step0とstep{1,2,4...512}。

これは、重複排除されていないモデルの場合、Pile上で1エポック未満のトレーニングに相当し、重複排除されたPile上では約1.5エポックのトレーニングに相当します。

すべての Pythia モデルは、バッチサイズ2M（2,097,152トークン）で143000ステップトレーニングされました。トレーニング手順の詳細については、GitHubを参照してください。また、再現方法も確認できます。Pythiaは、GPT-NeoX-20Bと同じトークナイザーを使用しています。

評価

すべての16個の Pythia モデルは、LM Evaluation Harnessを使用して評価されました。モデルとステップごとの結果にアクセスするには、GitHubリポジトリのresults/json/*を参照してください。

以下のセクションを展開すると、すべてのPythiaおよびPythia-dedupedモデルの評価結果のプロットを、OPTおよびBLOOMと比較して確認できます。

LAMBADA – OpenAI

Physical Interaction: Question Answering (PIQA)

WinoGrande

AI2 Reasoning Challenge—Easy Set

SciQ

変更履歴

このセクションでは、以前にリリースされたPythia v0と現在のモデルの違いを比較しています。これらの変更とその背後にある動機についてのさらなる議論は、Pythia論文の付録Bを参照してください。Pythiaを再トレーニングしても、ベンチマーク性能に影響はないことがわかりました。

すべてのモデルサイズが、現在は2Mトークンの均一なバッチサイズでトレーニングされています。以前は、160M、410M、および1.4Bパラメータのモデルが4Mトークンのバッチサイズでトレーニングされていました。
初期化時（ステップ0）とステップ{1,2,4,8,16,32,64,128,256,512}にチェックポイントを追加し、さらに1000トレーニングステップごとにチェックポイントを追加しました。
新しい再トレーニングされたスイートでは、Flash Attentionが使用されています。
元のスイートに存在していたわずかな不一致を修正しました：2.8Bパラメータ以下のすべてのモデルは、学習率（LR）スケジュールが開始LRの10％の最小LRまで減衰するものを使用していましたが、6.9Bおよび12Bモデルはすべて、最小LRが0まで減衰するLRスケジュールを使用していました。再トレーニングランでは、この不一致を修正しました：すべてのモデルが、最大LRの0.1倍の最小値まで減衰するLRでトレーニングされるようになりました。

命名規則とパラメータ数

Pythia モデルは、2023年1月に名前が変更されました。古い命名規則が誤って一部のドキュメントに残っている可能性があります。現在の命名規則（70M、160Mなど）は、総パラメータ数に基づいています。

現在のPythiaサフィックス	古いサフィックス	総パラメータ	非埋め込みパラメータ
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200