🚀 GPT-NeoX-20B
GPT-NeoX-20Bは、200億のパラメータを持つ自己回帰型言語モデルです。the Pile というデータセットを使用し、GPT-NeoXライブラリ を用いて学習されました。そのアーキテクチャは意図的にGPT-3に似せており、GPT-J-6B とほぼ同じです。学習データセットには大量の英語テキストが含まれており、このモデルの汎用性を反映しています。モデルのアーキテクチャ(GPT-3との違いを含む)、学習手順、および追加の評価に関する詳細は、付随する論文 を参照してください。
🚀 クイックスタート
GPT-NeoX-20Bを使い始めるには、以下の手順に従ってください。
✨ 主な機能
英語の自然言語処理タスクに適した自己回帰型言語モデル。
汎用的な学習データセットを使用して学習されている。
多くの自然言語タスクで良好な性能を示す。
📚 ドキュメント
モデルの詳細
| ハイパーパラメータ | 値 |
| ---------------------- | ----------- |
| nparameters | 20554567680 |
| nlayers | 44 |
| dmodel | 6144 |
| nheads | 64 |
| dhead | 96 |
| nvocab | 50257 |
| シーケンス長 | 2048 |
| 学習率 | 0.97 x 10-5 |
| 位置符号化 | [Rotary Position Embedding (RoPE)](https://arxiv.org/abs/2104.09864) |
使用方法と制限事項
想定される使用方法
GPT-NeoX-20Bは主に研究目的で開発されました。英語の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。
科学的な用途に加えて、Apache 2.0ライセンスに従う限り、GPT-NeoX-20Bをさらにファインチューニングしてデプロイすることもできます。このモデルはTransformersライブラリ と互換性があります。事前学習されたGPT-NeoX-20Bをファインチューニングモデルのベースとして使用する場合は、独自のリスクとバイアス評価を行う必要があります。
想定外の使用方法
GPT-NeoX-20Bはそのままでのデプロイを想定していません。これは製品ではなく、監督なしで人間との対話に使用することはできません。
GPT-NeoX-20Bは、言語モデルが一般的にデプロイされる下流タスク、例えば特定のジャンルの文章の執筆や商用チャットボットに対してファインチューニングされていません。これは、GPT-NeoX-20BはChatGPTのように、人間のフィードバックを用いた強化学習(RLHF)などの手法でファインチューニングされていないため、与えられたプロンプトに対してChatGPTのような応答を返す可能性が低いことを意味します。
このモデルは英語のみを扱うため、翻訳や他の言語のテキスト生成には使用できません。
制限事項とバイアス
GPT-NeoX-20Bの核心機能は、テキスト文字列を受け取り、次のトークンを予測することです。統計的に最も可能性の高い次のトークンが必ずしも最も「正確」なテキストをもたらすとは限らないことを忘れないでください。GPT-NeoX-20Bが事実に基づいた正確な出力を生成することに決して依存しないでください。
このモデルは、不適切な表現や猥褻なテキストが含まれることが知られているthe Pile というデータセットを使用して学習されています。性別、宗教、人種に関する文書化されたバイアスについての議論は、the Pile paperのセクション6 を参照してください。GPT-NeoX-20Bは、プロンプト自体に明らかな不快な内容が含まれていなくても、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。
このモデルの出力を人間の読者に提示する前に、出力を精選することをお勧めします。人工的に生成されたテキストを使用していることを読者に伝えてください。
使い方
単にいくつかのプロンプトを試してみたい場合は、このプレイグラウンド をチェックしてください。
GPT-NeoX-20Bは、AutoModelForCausalLM
機能を使用してロードできます。
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b" )
model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neox-20b" )
学習
学習データセット
The Pileは、825GiBの汎用的な英語データセットです。EleutherAIによって大規模言語モデルの学習用に特別に作成されました。このデータセットには、22の多様なソースからのテキストが含まれており、大まかに5つのカテゴリに分けられます:学術論文(例:arXiv)、インターネット(例:CommonCrawl)、散文(例:Project Gutenberg)、対話(例:YouTubeの字幕)、その他(例:GitHub、Enron Emails)。すべてのデータソースの内訳、方法論、および倫理的な影響に関する議論については、the Pile paper を参照してください。The Pileとその構成データセットに関するより詳細なドキュメントについては、データシート を参照してください。The Pileは公式ウェブサイト またはコミュニティミラー からダウンロードできます。
The Pileは、GPT-NeoX-20Bの学習に使用される前に重複排除されていません。
学習手順
GPT-NeoX-20Bは、約315万トークン(各シーケンスが2048トークンの1538シーケンス)のバッチサイズで、合計150,000ステップ学習されました。テンソル並列とパイプライン並列を使用して、モデルをGPUに分散させました。学習手順の追加の詳細は、付随する論文のセクション3 に記載されています。
評価
| モデル | OpenAIのLAMBADA | SciQ | PIQA | TriviaQA | ARC (Challenge) |
| ------------- | :--------------: | :-----------: | :-----------: | :-----------: | :-------------: |
| GPT-J-6B | 0.683 ± 0.006 | 0.910 ± 0.009 | 0.752 ± 0.010 | 0.170 ± 0.004 | 0.340 ± 0.014 |
| FairSeq 6.7B | 0.673 ± 0.007 | 0.895 ± 0.010 | 0.762 ± 0.010 | 0.221 ± 0.004 | 0.329 ± 0.014 |
| GPT-3 Curie | 0.693 ± 0.006 | 0.918 ± 0.009 | 0.767 ± 0.010 | 0.196 ± 0.004 | 0.334 ± 0.014 |
| FairSeq 13B | 0.709 ± 0.006 | 0.910 ± 0.009 | 0.769 ± 0.010 | 0.270 ± 0.004 | 0.345 ± 0.014 |
| GPT-NeoX-20B | 0.720 ± 0.006 | 0.928 ± 0.008 | 0.779 ± 0.010 | 0.259 ± 0.004 | 0.380 ± 0.014 |
| GPT-3 DaVinci | 0.752 ± 0.006 | 0.949 ± 0.007 | 0.791 ± 0.009 | 0.409 ± 0.005 | 0.435 ± 0.014 |
選択された自然言語タスクにおけるゼロショット性能。
これは評価結果の大幅に省略されたバージョンです。GPT-NeoX-20B論文 の付録Dでは、より多くのモデルサイズを比較し、ゼロショットと5ショットの自然言語タスク、ゼロショットと5ショットの基本算術とMATH、およびゼロショットのHendrycksタスクなどの追加の評価が含まれています。
BibTeX
GPT-NeoX-20B論文を引用するには:
@misc{https://doi.org/10.48550/arxiv.2204.06745,
doi = {10.48550/ARXIV.2204.06745},
url = {https://arxiv.org/abs/2204.06745},
author = {Black, Sid and Biderman, Stella and Hallahan, Eric and Anthony, Quentin and Gao, Leo and Golding, Laurence and He, Horace and Leahy, Connor and McDonell, Kyle and Phang, Jason and Pieler, Michael and Prashanth, USVSN Sai and Purohit, Shivanshu and Reynolds, Laria and Tow, Jonathan and Wang, Ben and Weinbach, Samuel},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {GPT-NeoX-20B: An Open-Source Autoregressive Language Model},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution 4.0 International}
}
詳細な結果はこちら で確認できます。
メトリック
値
平均
36.02
ARC (25-shot)
45.73
HellaSwag (10-shot)
73.45
MMLU (5-shot)
25.0
TruthfulQA (0-shot)
31.61
Winogrande (5-shot)
68.9
GSM8K (5-shot)
2.43
DROP (3-shot)
5.04