🚀 GPT-Neo 1.3B
GPT-Neo 1.3B 是一個基於Transformer架構的模型,使用EleutherAI復刻的GPT - 3架構設計。它能學習英語的內在表示,可用於提取對下游任務有用的特徵,尤其擅長根據提示生成文本。
🚀 快速開始
你可以直接使用文本生成管道來使用這個模型。以下示例每次運行時都會生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-1.3B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
✨ 主要特性
- 架構設計:採用EleutherAI復刻的GPT - 3架構設計。
- 訓練數據:在大規模精心策劃的數據集The Pile上進行訓練。
- 功能用途:可學習英語的內在表示,用於提取下游任務有用特徵,尤其擅長根據提示生成文本。
📚 詳細文檔
模型描述
GPT-Neo 1.3B是一個Transformer模型,使用EleutherAI復刻的GPT - 3架構設計。GPT - Neo指的是一類模型,而1.3B代表這個特定預訓練模型的參數數量。
訓練數據
GPT-Neo 1.3B在The Pile上進行訓練,這是EleutherAI為訓練該模型而創建的大規模精心策劃的數據集。
訓練過程
該模型在The Pile上對3800億個標記進行了362,000步的訓練。它作為掩碼自迴歸語言模型進行訓練,使用交叉熵損失。
預期用途和侷限性
通過這種方式,模型學習英語的內在表示,然後可用於提取對下游任務有用的特徵。不過,該模型最擅長的是它預訓練的任務,即根據提示生成文本。
侷限性和偏差
GPT - Neo作為自迴歸語言模型進行訓練,這意味著其核心功能是接收一串文本並預測下一個標記。雖然語言模型廣泛用於其他任務,但這項工作仍存在很多未知因素。
GPT - Neo在The Pile上進行訓練,該數據集已知包含褻瀆、淫穢和其他冒犯性語言。根據你的用例,GPT - Neo可能會產生社會不可接受的文本。有關The Pile中偏差的更詳細分析,請參閱The Pile論文的第5和第6節。
與所有語言模型一樣,很難提前預測GPT - Neo對特定提示的響應,並且可能會在沒有警告的情況下出現冒犯性內容。我們建議在發佈輸出之前由人工進行審核或過濾,以審查不良內容並提高結果的質量。
評估結果
語言推理
模型及規模 |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada Acc |
Winogrande |
Hellaswag |
GPT - Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT - 2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT - Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT - 3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理和科學推理
模型及規模 |
MathQA |
PubMedQA |
Piqa |
GPT - Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT - 2 1.5B |
23.64% |
58.33% |
70.78% |
GPT - Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT - 3 Ada |
24.29% |
52.80% |
68.88% |
下游應用
待確定
BibTeX引用和引用信息
要引用此模型,請使用:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
詳細結果可在此處找到。
指標 |
值 |
平均值 |
29.44 |
ARC (25-shot) |
31.23 |
HellaSwag (10-shot) |
48.47 |
MMLU (5-shot) |
24.82 |
TruthfulQA (0-shot) |
39.63 |
Winogrande (5-shot) |
56.91 |
GSM8K (5-shot) |
0.45 |
DROP (3-shot) |
4.6 |
📄 許可證
本項目採用MIT許可證。