🚀 GPT-Neo 1.3B
GPT-Neo 1.3B 是一个基于Transformer架构的模型,使用EleutherAI复刻的GPT - 3架构设计。它能学习英语的内在表示,可用于提取对下游任务有用的特征,尤其擅长根据提示生成文本。
🚀 快速开始
你可以直接使用文本生成管道来使用这个模型。以下示例每次运行时都会生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-1.3B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
✨ 主要特性
- 架构设计:采用EleutherAI复刻的GPT - 3架构设计。
- 训练数据:在大规模精心策划的数据集The Pile上进行训练。
- 功能用途:可学习英语的内在表示,用于提取下游任务有用特征,尤其擅长根据提示生成文本。
📚 详细文档
模型描述
GPT-Neo 1.3B是一个Transformer模型,使用EleutherAI复刻的GPT - 3架构设计。GPT - Neo指的是一类模型,而1.3B代表这个特定预训练模型的参数数量。
训练数据
GPT-Neo 1.3B在The Pile上进行训练,这是EleutherAI为训练该模型而创建的大规模精心策划的数据集。
训练过程
该模型在The Pile上对3800亿个标记进行了362,000步的训练。它作为掩码自回归语言模型进行训练,使用交叉熵损失。
预期用途和局限性
通过这种方式,模型学习英语的内在表示,然后可用于提取对下游任务有用的特征。不过,该模型最擅长的是它预训练的任务,即根据提示生成文本。
局限性和偏差
GPT - Neo作为自回归语言模型进行训练,这意味着其核心功能是接收一串文本并预测下一个标记。虽然语言模型广泛用于其他任务,但这项工作仍存在很多未知因素。
GPT - Neo在The Pile上进行训练,该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据你的用例,GPT - Neo可能会产生社会不可接受的文本。有关The Pile中偏差的更详细分析,请参阅The Pile论文的第5和第6节。
与所有语言模型一样,很难提前预测GPT - Neo对特定提示的响应,并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行审核或过滤,以审查不良内容并提高结果的质量。
评估结果
语言推理
模型及规模 |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada Acc |
Winogrande |
Hellaswag |
GPT - Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT - 2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT - Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT - 3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理和科学推理
模型及规模 |
MathQA |
PubMedQA |
Piqa |
GPT - Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT - 2 1.5B |
23.64% |
58.33% |
70.78% |
GPT - Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT - 3 Ada |
24.29% |
52.80% |
68.88% |
下游应用
待确定
BibTeX引用和引用信息
要引用此模型,请使用:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
详细结果可在此处找到。
指标 |
值 |
平均值 |
29.44 |
ARC (25-shot) |
31.23 |
HellaSwag (10-shot) |
48.47 |
MMLU (5-shot) |
24.82 |
TruthfulQA (0-shot) |
39.63 |
Winogrande (5-shot) |
56.91 |
GSM8K (5-shot) |
0.45 |
DROP (3-shot) |
4.6 |
📄 许可证
本项目采用MIT许可证。