🚀 GPT-Neo 2.7B
GPT-Neo 2.7B 是一个基于Transformer架构的模型,可用于文本生成任务,利用大规模数据集训练得到,在多种语言推理和物理科学推理任务中表现出色。
🚀 快速开始
你可以直接使用文本生成管道来使用这个模型。以下示例每次运行时都会生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
✨ 主要特性
- 架构设计:GPT-Neo 2.7B 是使用 EleutherAI 对 GPT - 3 架构的复现设计的Transformer模型。
- 训练数据:在大规模精心策划的数据集 The Pile 上进行训练。
- 训练目标:作为掩码自回归语言模型进行训练,使用交叉熵损失函数。
- 功能用途:学习英语语言的内部表示,可用于提取对下游任务有用的特征,尤其擅长根据提示生成文本。
📦 安装指南
文档未提及安装步骤,故跳过。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-2.7B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
📚 详细文档
模型描述
GPT-Neo 2.7B 是使用 EleutherAI 对 GPT - 3 架构的复现设计的Transformer模型。GPT - Neo 指的是模型类别,而 2.7B 表示这个特定预训练模型的参数数量。
训练数据
GPT-Neo 2.7B 在 The Pile 上进行训练,这是 EleutherAI 为训练该模型而创建的大规模精心策划的数据集。
训练过程
该模型在 400,000 个步骤中对 4200 亿个标记进行了训练。它作为掩码自回归语言模型进行训练,使用交叉熵损失函数。
预期用途和局限性
通过这种方式,模型学习英语语言的内部表示,然后可用于提取对下游任务有用的特征。不过,该模型最擅长的是其预训练的任务,即根据提示生成文本。
评估结果
所有评估均使用评估工具进行。GPT - 2 和 GPT - 3 的一些结果与各自论文中报告的值不一致。我们目前正在研究原因,并非常感谢对我们评估工具的反馈和进一步测试。如果你想贡献你所做的评估,请在我们的Discord上联系我们。
语言推理
属性 |
详情 |
模型类型 |
GPT-Neo 2.7B |
训练数据 |
The Pile |
模型及规模 |
Pile BPB |
Pile PPL |
Wikitext PPL |
Lambada PPL |
Lambada 准确率 |
Winogrande |
Hellaswag |
GPT-Neo 1.3B |
0.7527 |
6.159 |
13.10 |
7.498 |
57.23% |
55.01% |
38.66% |
GPT-2 1.5B |
1.0468 |
----- |
17.48 |
10.634 |
51.21% |
59.40% |
40.03% |
GPT-Neo 2.7B |
0.7165 |
5.646 |
11.39 |
5.626 |
62.22% |
56.50% |
42.73% |
GPT-3 Ada |
0.9631 |
----- |
----- |
9.954 |
51.60% |
52.90% |
35.93% |
物理和科学推理
模型及规模 |
MathQA |
PubMedQA |
Piqa |
GPT-Neo 1.3B |
24.05% |
54.40% |
71.11% |
GPT-2 1.5B |
23.64% |
58.33% |
70.78% |
GPT-Neo 2.7B |
24.72% |
57.54% |
72.14% |
GPT-3 Ada |
24.29% |
52.80% |
68.88% |
局限性和偏差
GPT - Neo 作为自回归语言模型进行训练。这意味着其核心功能是获取一串文本并预测下一个标记。虽然语言模型广泛用于此任务之外的其他任务,但这项工作仍有很多未知因素。
GPT - Neo 在 The Pile 上进行训练,该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据你的用例,GPT - Neo 可能会产生社会不可接受的文本。有关 The Pile 中偏差的更详细分析,请参阅 The Pile 论文的第 5 节和第 6 节。
与所有语言模型一样,很难提前预测 GPT - Neo 对特定提示的响应,并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行筛选或过滤,以审查不良内容并提高结果质量。
BibTeX 条目和引用信息
要引用此模型,请使用:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
🔧 技术细节
文档未提供足够技术细节,故跳过。
📄 许可证
本项目采用 MIT 许可证。