🚀 GPT-Neo 125M
GPT-Neo 125Mは、EleutherAIによるGPT-3アーキテクチャの再現を用いて設計されたトランスフォーマーモデルです。GPT-Neoはモデルのクラスを指し、125Mはこの特定の事前学習モデルのパラメータ数を表します。
🚀 クイックスタート
GPT-Neo 125Mは、Transformerベースの事前学習言語モデルで、自然言語処理タスクに使用できます。以下に、このモデルを使用した基本的なテキスト生成の例を示します。
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-125M')
>>> generator("EleutherAI has", do_sample=True, min_length=20)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
✨ 主な機能
- テキスト生成:与えられたプロンプトから文章を生成することができます。
- 下流タスクへの利用:事前学習されたモデルの内部表現を利用して、下流タスクの特徴抽出に役立てることができます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-125M')
>>> generator("EleutherAI has", do_sample=True, min_length=20)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
📚 ドキュメント
モデルの説明
GPT-Neo 125Mは、EleutherAIによるGPT-3アーキテクチャの再現を用いて設計されたトランスフォーマーモデルです。GPT-Neoはモデルのクラスを指し、125Mはこの特定の事前学習モデルのパラメータ数を表します。
学習データ
GPT-Neo 125Mは、EleutherAIがこのモデルの学習目的で作成した大規模な精選データセットであるPileを使用して学習されました。
学習手順
このモデルは、Pile上で3000億トークンに対して572,300ステップで学習されました。マスク自己回帰型言語モデルとして、交差エントロピー損失を使用して学習されました。
想定される用途と制限
このようにして、モデルは英語の内部表現を学習し、下流タスクに役立つ特徴を抽出するために使用できます。ただし、このモデルは事前学習されたタスク、つまりプロンプトからのテキスト生成に最適です。
制限とバイアス
GPT-Neoは自己回帰型言語モデルとして学習されました。これは、その核心機能がテキスト文字列を受け取り、次のトークンを予測することです。言語モデルはこれ以外のタスクにも広く使用されていますが、この作業には多くの未知の要素があります。
GPT-Neoは、不適切な言葉や露骨な表現などを含むことが知られているPileデータセットで学習されました。使用ケースによっては、GPT-Neoが社会的に受け入れられないテキストを生成する可能性があります。Pileのバイアスに関する詳細な分析については、Pile論文のセクション5および6を参照してください。
すべての言語モデルと同様に、GPT-Neoが特定のプロンプトにどのように反応するかを事前に予測することは困難であり、不快な内容が突然発生する可能性があります。出力を公開する前に、人間がキュレートまたはフィルタリングすることをお勧めします。これにより、望ましくない内容を削除し、結果の品質を向上させることができます。
🔧 技術詳細
このモデルは、Pile上で3000億トークンに対して572,300ステップで学習されました。マスク自己回帰型言語モデルとして、交差エントロピー損失を使用して学習されました。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用情報
このモデルを引用するには、以下のBibTeXエントリを使用してください。
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
詳細な結果はこちらで確認できます。
指標 |
値 |
平均 |
25.79 |
ARC (25-shot) |
22.95 |
HellaSwag (10-shot) |
30.26 |
MMLU (5-shot) |
25.97 |
TruthfulQA (0-shot) |
45.58 |
Winogrande (5-shot) |
51.78 |
GSM8K (5-shot) |
0.3 |
DROP (3-shot) |
3.69 |