GPT-Neo 1.3B开源语言模型 - 免费使用实现高效文本生成任务

首页

Gpt Neo 1.3B

由 EleutherAI 开发

GPT-Neo 1.3B是由EleutherAI开发的13亿参数自回归语言模型，基于GPT-3架构设计，擅长文本生成任务

大型语言模型英语开源协议:MIT #英文文本生成 #大规模预训练 #因果语言模型

下载量 208.93k

发布时间 : 3/2/2022

模型简介

基于Transformer架构的大规模语言模型，主要用于开放域文本生成和语言理解任务

模型特点

大规模预训练

在800GB的Pile数据集上训练，包含多样化的文本内容

开源可访问

作为GPT-3的开源替代方案，提供MIT许可证下的完整模型权重

强上下文理解

在Lambada等语言理解任务上表现优于同规模GPT-2模型

模型能力

开放域文本生成

语言理解

文本续写

问答生成

使用案例

内容创作

创意写作辅助

根据提示生成故事、诗歌等创意文本

可生成连贯的段落级文本

技术文档生成

基于简要描述自动生成技术文档初稿

教育研究

语言模型研究

作为基础模型用于自然语言处理研究

🚀 GPT-Neo 1.3B

GPT-Neo 1.3B 是一个基于Transformer架构的模型，使用EleutherAI复刻的GPT - 3架构设计。它能学习英语的内在表示，可用于提取对下游任务有用的特征，尤其擅长根据提示生成文本。

🚀 快速开始

你可以直接使用文本生成管道来使用这个模型。以下示例每次运行时都会生成不同的序列：

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-1.3B')
>>> generator("EleutherAI has", do_sample=True, min_length=50)

[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]

✨ 主要特性

架构设计：采用EleutherAI复刻的GPT - 3架构设计。
训练数据：在大规模精心策划的数据集The Pile上进行训练。
功能用途：可学习英语的内在表示，用于提取下游任务有用特征，尤其擅长根据提示生成文本。

📚 详细文档

模型描述

GPT-Neo 1.3B是一个Transformer模型，使用EleutherAI复刻的GPT - 3架构设计。GPT - Neo指的是一类模型，而1.3B代表这个特定预训练模型的参数数量。

训练数据

GPT-Neo 1.3B在The Pile上进行训练，这是EleutherAI为训练该模型而创建的大规模精心策划的数据集。

训练过程

该模型在The Pile上对3800亿个标记进行了362,000步的训练。它作为掩码自回归语言模型进行训练，使用交叉熵损失。

预期用途和局限性

通过这种方式，模型学习英语的内在表示，然后可用于提取对下游任务有用的特征。不过，该模型最擅长的是它预训练的任务，即根据提示生成文本。

局限性和偏差

GPT - Neo作为自回归语言模型进行训练，这意味着其核心功能是接收一串文本并预测下一个标记。虽然语言模型广泛用于其他任务，但这项工作仍存在很多未知因素。

GPT - Neo在The Pile上进行训练，该数据集已知包含亵渎、淫秽和其他冒犯性语言。根据你的用例，GPT - Neo可能会产生社会不可接受的文本。有关The Pile中偏差的更详细分析，请参阅The Pile论文的第5和第6节。

与所有语言模型一样，很难提前预测GPT - Neo对特定提示的响应，并且可能会在没有警告的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行审核或过滤，以审查不良内容并提高结果的质量。

评估结果

语言推理

模型及规模	Pile BPB	Pile PPL	Wikitext PPL	Lambada PPL	Lambada Acc	Winogrande	Hellaswag
GPT - Neo 1.3B	0.7527	6.159	13.10	7.498	57.23%	55.01%	38.66%
GPT - 2 1.5B	1.0468	-----	17.48	10.634	51.21%	59.40%	40.03%
GPT - Neo 2.7B	0.7165	5.646	11.39	5.626	62.22%	56.50%	42.73%
GPT - 3 Ada	0.9631	-----	-----	9.954	51.60%	52.90%	35.93%

物理和科学推理

模型及规模	MathQA	PubMedQA	Piqa
GPT - Neo 1.3B	24.05%	54.40%	71.11%
GPT - 2 1.5B	23.64%	58.33%	70.78%
GPT - Neo 2.7B	24.72%	57.54%	72.14%
GPT - 3 Ada	24.29%	52.80%	68.88%

下游应用

待确定

BibTeX引用和引用信息

要引用此模型，请使用：

@software{gpt-neo,
  author       = {Black, Sid and
                  Leo, Gao and
                  Wang, Phil and
                  Leahy, Connor and
                  Biderman, Stella},
  title        = {{GPT-Neo: Large Scale Autoregressive Language 
                   Modeling with Mesh-Tensorflow}},
  month        = mar,
  year         = 2021,
  note         = {{If you use this software, please cite it using 
                   these metadata.}},
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.5297715},
  url          = {https://doi.org/10.5281/zenodo.5297715}
}

@article{gao2020pile,
  title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}

开放大语言模型排行榜评估结果

详细结果可在此处找到。

指标	值
平均值	29.44
ARC (25-shot)	31.23
HellaSwag (10-shot)	48.47
MMLU (5-shot)	24.82
TruthfulQA (0-shot)	39.63
Winogrande (5-shot)	56.91
GSM8K (5-shot)	0.45
DROP (3-shot)	4.6