🚀 GPT-Neo 2.7B
GPT-Neo 2.7Bは、EleutherAIによるGPT - 3アーキテクチャの再現を用いて設計されたトランスフォーマーモデルです。GPT - Neoはモデルのクラスを指し、2.7Bはこの特定の事前学習モデルのパラメータ数を表します。このモデルは、英語の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。
🚀 クイックスタート
このモデルは、テキスト生成のパイプラインで直接使用できます。以下の例では、実行するたびに異なるシーケンスが生成されます。
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
✨ 主な機能
- テキスト生成: 与えられたプロンプトからテキストを生成することができます。
- 下流タスクの特徴抽出: 事前学習で得た英語の内部表現を利用して、下流タスクに役立つ特徴を抽出できます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
result = generator("EleutherAI has", do_sample=True, min_length=50)
print(result)
高度な使用法
from transformers import pipeline
generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
prompt = "EleutherAI has"
output = generator(prompt, temperature=0.7, max_length=100, num_return_sequences=3)
for sequence in output:
print(sequence['generated_text'])
📚 ドキュメント
モデルの説明
GPT-Neo 2.7Bは、EleutherAIによるGPT - 3アーキテクチャの再現を用いて設計されたトランスフォーマーモデルです。GPT - Neoはモデルのクラスを指し、2.7Bはこの特定の事前学習モデルのパラメータ数を表します。
学習データ
GPT-Neo 2.7Bは、EleutherAIがこのモデルの学習を目的として作成した大規模な精選データセットであるPileで学習されました。
学習手順
このモデルは、40万ステップにわたって4200億トークンで学習されました。クロスエントロピー損失を使用して、マスク自己回帰型言語モデルとして学習されました。
想定される使用方法と制限
このモデルは、英語の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。ただし、このモデルは事前学習された目的、つまりプロンプトからのテキスト生成に最適です。
制限とバイアス
GPT-Neoは自己回帰型言語モデルとして学習されています。つまり、その核心機能はテキストの文字列を受け取り、次のトークンを予測することです。言語モデルはこれ以外のタスクにも広く使用されていますが、この作業には多くの未知の要素があります。
GPT-Neoは、不適切な言葉や露骨な表現などを含むことが知られているPileデータセットで学習されています。使用目的によっては、GPT-Neoが社会的に受け入れられないテキストを生成する可能性があります。Pileデータセットのバイアスについての詳細な分析については、Pile論文のセクション5および6を参照してください。
すべての言語モデルと同様に、GPT-Neoが特定のプロンプトにどのように反応するかを事前に予測することは困難であり、不快な内容が突然発生する可能性があります。出力を公開する前に、人間がキュレートまたはフィルタリングすることをお勧めします。これにより、望ましくない内容を削除し、結果の品質を向上させることができます。
評価結果
すべての評価は、評価ハーネスを使用して行われました。GPT - 2およびGPT - 3の一部の結果は、それぞれの論文で報告された値と一致していません。現在、原因を調査中であり、評価ハーネスのフィードバックとさらなるテストを大いに歓迎します。あなたが行った評価を貢献したい場合は、Discordでご連絡ください。
言語的推論
モデルとサイズ |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada Acc |
Winogrande |
Hellaswag |
GPT-Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT-2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT-Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT-3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理的および科学的推論
モデルとサイズ |
MathQA |
PubMedQA |
Piqa |
GPT-Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT-2 1.5B |
23.64% |
58.33% |
70.78% |
GPT-Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT-3 Ada |
24.29% |
52.80% |
68.88% |
BibTeXエントリと引用情報
このモデルを引用するには、以下を使用してください。
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
🔧 技術詳細
- モデルタイプ: トランスフォーマーベースの自己回帰型言語モデル
- 学習データ: Pileデータセット
- 学習手順: 40万ステップにわたって4200億トークンで学習。クロスエントロピー損失を使用したマスク自己回帰型言語モデルとして学習。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。