🚀 GPT-Neo 125M
GPT-Neo 125M 是一个基于Transformer架构的模型,使用EleutherAI复刻的GPT - 3架构设计。它能学习英语的内在表示,可用于提取对下游任务有用的特征,尤其擅长根据提示生成文本。
✨ 主要特性
- 基于Transformer架构:采用EleutherAI复刻的GPT - 3架构设计。
- 大规模数据训练:在大规模的Pile数据集上进行训练。
- 文本生成能力:擅长根据提示生成文本。
📦 安装指南
文档未提及安装步骤,暂无法提供。
💻 使用示例
基础用法
你可以直接使用文本生成管道来使用这个模型。每次运行此示例时都会生成不同的序列:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='EleutherAI/gpt-neo-125M')
>>> generator("EleutherAI has", do_sample=True, min_length=20)
[{'generated_text': 'EleutherAI has made a commitment to create new software packages for each of its major clients and has'}]
📚 详细文档
模型描述
GPT-Neo 125M是使用EleutherAI复刻的GPT - 3架构设计的Transformer模型。GPT - Neo指的是模型类别,而125M表示这个特定预训练模型的参数数量。
训练数据
GPT-Neo 125M在Pile数据集上进行训练,Pile是EleutherAI为训练该模型而创建的大规模精选数据集。
训练过程
该模型在Pile数据集上进行了572,300步的训练,处理了3000亿个标记。它作为掩码自回归语言模型进行训练,使用交叉熵损失。
预期用途和局限性
通过这种方式,模型学习英语的内在表示,可用于提取对下游任务有用的特征。不过,该模型最擅长的还是它预训练的任务,即根据提示生成文本。
局限性和偏差
GPT - Neo作为自回归语言模型进行训练,这意味着其核心功能是接收一段文本并预测下一个标记。虽然语言模型广泛用于其他任务,但这项工作仍有很多未知因素。
GPT - Neo在Pile数据集上进行训练,该数据集包含亵渎、低俗和其他冒犯性语言。根据你的用例,GPT - Neo可能会产生社会不可接受的文本。有关Pile数据集中偏差的更详细分析,请参阅Pile论文的第5和第6节。
与所有语言模型一样,很难预先预测GPT - Neo对特定提示的响应,并且可能会在毫无预警的情况下出现冒犯性内容。我们建议在发布输出之前由人工进行审核或过滤,以审查不良内容并提高结果质量。
评估结果
详细结果可查看此处
指标 |
数值 |
平均值 |
25.79 |
ARC (25 - shot) |
22.95 |
HellaSwag (10 - shot) |
30.26 |
MMLU (5 - shot) |
25.97 |
TruthfulQA (0 - shot) |
45.58 |
Winogrande (5 - shot) |
51.78 |
GSM8K (5 - shot) |
0.3 |
DROP (3 - shot) |
3.69 |
BibTeX引用和引用信息
若要引用此模型,请使用以下内容:
@software{gpt-neo,
author = {Black, Sid and
Leo, Gao and
Wang, Phil and
Leahy, Connor and
Biderman, Stella},
title = {{GPT-Neo: Large Scale Autoregressive Language
Modeling with Mesh-Tensorflow}},
month = mar,
year = 2021,
note = {{If you use this software, please cite it using
these metadata.}},
publisher = {Zenodo},
version = {1.0},
doi = {10.5281/zenodo.5297715},
url = {https://doi.org/10.5281/zenodo.5297715}
}
@article{gao2020pile,
title={The Pile: An 800GB Dataset of Diverse Text for Language Modeling},
author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others},
journal={arXiv preprint arXiv:2101.00027},
year={2020}
}
🔧 技术细节
- 模型类型:基于Transformer架构的自回归语言模型。
- 训练数据:Pile数据集,这是一个由EleutherAI创建的大规模精选数据集。
- 训练步骤:在Pile数据集上进行了572,300步的训练,处理了3000亿个标记。
- 损失函数:使用交叉熵损失。
📄 许可证
本模型采用MIT许可证。