🚀 GPT-Neo 1.3B
GPT-Neo 1.3Bは、EleutherAIによるGPT - 3アーキテクチャの再現を用いて設計されたトランスフォーマーモデルです。GPT - Neoはモデルのクラスを指し、1.3Bはこの特定の事前学習モデルのパラメータ数を表します。
🚀 クイックスタート
GPT-Neo 1.3Bは、英語の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。主にプロンプトからのテキスト生成に最適です。
✨ 主な機能
- プロンプトからのテキスト生成が得意です。
- 英語の内部表現を学習し、下流タスクの特徴抽出に利用できます。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-1.3B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
📚 ドキュメント
モデルの説明
GPT-Neo 1.3Bは、EleutherAIによるGPT - 3アーキテクチャの再現を用いて設計されたトランスフォーマーモデルです。GPT - Neoはモデルのクラスを指し、1.3Bはこの特定の事前学習モデルのパラメータ数を表します。
学習データ
GPT-Neo 1.3Bは、EleutherAIがこのモデルの学習を目的として作成した大規模な精選データセットであるPileで学習されました。
学習手順
このモデルは、Pile上で3800億トークンに対して362,000ステップで学習されました。マスク付き自己回帰型言語モデルとして、交差エントロピー損失を使用して学習されました。
想定される使用方法と制限
このようにして、モデルは英語の内部表現を学習し、下流のタスクに役立つ特徴を抽出するために使用できます。ただし、このモデルは事前学習された目的、つまりプロンプトからのテキスト生成に最適です。
制限とバイアス
GPT-Neoは自己回帰型言語モデルとして学習されました。これは、その核心機能がテキストの文字列を受け取り、次のトークンを予測することです。言語モデルはこれ以外のタスクにも広く使用されていますが、この作業には多くの未知の要素があります。
GPT-Neoは、不適切な言葉や露骨な表現などを含むことが知られているPileデータセットで学習されています。使用目的によっては、GPT-Neoが社会的に受け入れられないテキストを生成する可能性があります。Pileのバイアスに関する詳細な分析については、Pile論文のセクション5と6を参照してください。
すべての言語モデルと同様に、GPT-Neoが特定のプロンプトにどのように反応するかを事前に予測することは困難であり、警告なしに不快な内容が生成される可能性があります。出力を公開する前に、人間が出力を選別またはフィルタリングすることをお勧めします。これにより、望ましくない内容を削除し、結果の品質を向上させることができます。
評価結果
言語的推論
プロパティ |
詳細 |
モデルタイプ |
トランスフォーマーモデル |
学習データ |
Pileデータセット |
モデルとサイズ |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada Acc |
Winogrande |
Hellaswag |
GPT-Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT-2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT-Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT-3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理的および科学的推論
モデルとサイズ |
MathQA |
PubMedQA |
Piqa |
GPT-Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT-2 1.5B |
23.64% |
58.33% |
70.78% |
GPT-Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT-3 Ada |
24.29% |
52.80% |
68.88% |
下流アプリケーション
TBD
BibTeXエントリと引用情報
このモデルを引用するには、以下を使用してください。
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
詳細な結果はこちらで確認できます。
メトリック |
値 |
平均 |
29.44 |
ARC (25-shot) |
31.23 |
HellaSwag (10-shot) |
48.47 |
MMLU (5-shot) |
24.82 |
TruthfulQA (0-shot) |
39.63 |
Winogrande (5-shot) |
56.91 |
GSM8K (5-shot) |
0.45 |
DROP (3-shot) |
4.6 |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。