GPT-Neo 125M开源文本生成模型 - 免费部署助力英语文本创作

首页

Gpt Neo 125m

由 EleutherAI 开发

GPT-Neo 125M是基于GPT-3架构的Transformer模型，由EleutherAI开发，参数量为1.25亿，主要用于英语文本生成任务。

大型语言模型英语开源协议:MIT #英文文本生成 #小规模参数 #自回归模型

下载量 150.96k

发布时间 : 3/2/2022

模型简介

GPT-Neo 125M是一个自回归语言模型，基于Transformer架构设计，主要用于根据提示生成文本。它在大规模数据集The Pile上进行了预训练，能够学习英语语言的内部表征。

模型特点

基于GPT-3架构

复现了GPT-3的架构设计，具有相似的文本生成能力。

大规模预训练

在The Pile数据集上训练了3000亿个token，学习到丰富的语言表征。

开源模型

由EleutherAI开发并开源，可供研究和商业用途。

模型能力

文本生成

语言建模

文本补全

使用案例

文本生成

创意写作

根据提示生成故事、诗歌等创意文本。

内容补全

根据部分文本输入自动补全后续内容。

研究

语言模型研究

用于研究自回归语言模型的行为和性能。

🚀 GPT-Neo 125M

GPT-Neo 125M 是一个基于Transformer架构的模型，使用EleutherAI复刻的GPT - 3架构设计。它能学习英语的内在表示，可用于提取对下游任务有用的特征，尤其擅长根据提示生成文本。

✨ 主要特性

基于Transformer架构：采用EleutherAI复刻的GPT - 3架构设计。
大规模数据训练：在大规模的Pile数据集上进行训练。
文本生成能力：擅长根据提示生成文本。

📦 安装指南

文档未提及安装步骤，暂无法提供。

💻 使用示例

基础用法

你可以直接使用文本生成管道来使用这个模型。每次运行此示例时都会生成不同的序列：

>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-125M')
>>> generator("EleutherAI has", do_sample=True, min_length=20)

[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]

📚 详细文档

模型描述

GPT-Neo 125M是使用EleutherAI复刻的GPT - 3架构设计的Transformer模型。GPT - Neo指的是模型类别，而125M表示这个特定预训练模型的参数数量。

训练数据

GPT-Neo 125M在Pile数据集上进行训练，Pile是EleutherAI为训练该模型而创建的大规模精选数据集。

训练过程

该模型在Pile数据集上进行了572,300步的训练，处理了3000亿个标记。它作为掩码自回归语言模型进行训练，使用交叉熵损失。

预期用途和局限性

通过这种方式，模型学习英语的内在表示，可用于提取对下游任务有用的特征。不过，该模型最擅长的还是它预训练的任务，即根据提示生成文本。

局限性和偏差

GPT - Neo作为自回归语言模型进行训练，这意味着其核心功能是接收一段文本并预测下一个标记。虽然语言模型广泛用于其他任务，但这项工作仍有很多未知因素。

GPT - Neo在Pile数据集上进行训练，该数据集包含亵渎、低俗和其他冒犯性语言。根据你的用例，GPT - Neo可能会产生社会不可接受的文本。有关Pile数据集中偏差的更详细分析，请参阅Pile论文的第5和第6节。

与所有语言模型一样，很难预先预测GPT - Neo对特定提示的响应，并且可能会在毫无预警的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行审核或过滤，以审查不良内容并提高结果质量。

评估结果

详细结果可查看此处

指标	数值
平均值	25.79
ARC (25 - shot)	22.95
HellaSwag (10 - shot)	30.26
MMLU (5 - shot)	25.97
TruthfulQA (0 - shot)	45.58
Winogrande (5 - shot)	51.78
GSM8K (5 - shot)	0.3
DROP (3 - shot)	3.69

BibTeX引用和引用信息

若要引用此模型，请使用以下内容：


@software{gpt-neo,

  author       = {Black, Sid and
                  Leo, Gao and
                  Wang, Phil and
                  Leahy, Connor and
                  Biderman, Stella},
  title        = {{GPT-Neo: Large Scale Autoregressive Language 
                   Modeling with Mesh-Tensorflow}},
  month        = mar,
  year         = 2021,
  note         = {{If you use this software, please cite it using 
                   these metadata.}},
  publisher    = {Zenodo},
  version      = {1.0},
  doi          = {10.5281/zenodo.5297715},
  url          = {https://doi.org/10.5281/zenodo.5297715}
}

@article{gao2020pile,
  title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}