Pythia-12B-deduped开源大语言模型 - 助力可解释性研究，免费使用！

首页

Pythia 12b Deduped

由 EleutherAI 开发

Pythia-12B-deduped是EleutherAI开发的12B参数规模的大型语言模型，专为可解释性研究设计，在去重后的Pile数据集上训练。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #可解释性研究 #多检查点追踪 #去重数据集训练

下载量 4,708

发布时间 : 2/27/2023

模型简介

Pythia Scaling Suite是为促进可解释性研究而开发的系列模型，包含多种参数规模的模型，所有模型在相同数据上以相同顺序训练。12B版本是其中最大规模模型之一。

模型特点

可解释性研究导向

专为研究大型语言模型的行为、功能和局限性而设计，提供可控的实验环境

完整训练检查点

提供154个训练检查点，包括初始状态和训练过程中的多个阶段，便于研究模型演变

去重数据集训练

使用经过全局去重的Pile数据集训练，减少数据重复带来的影响

性能优异

在基准测试中达到或超越类似规模模型(如OPT和GPT-Neo)的性能

模型能力

英语文本生成

语言模型研究

模型行为分析

可解释性实验

使用案例

学术研究

语言模型可解释性研究

利用提供的多个检查点研究模型训练过程中的行为变化

促进对大型语言模型内部工作机制的理解

模型缩放规律研究

通过比较不同规模Pythia模型的表现，研究模型规模与性能的关系

为模型缩放提供实证依据

下游应用开发

文本生成应用

作为基础模型进行微调，开发特定领域的文本生成应用

需注意模型可能生成不准确或有偏见的内容

🚀 Pythia-12B-deduped

Pythia Scaling Suite是为促进可解释性研究而开发的一系列模型(详见论文)。它包含两组各八个模型，模型大小分别为70M、160M、410M、1B、1.4B、2.8B、6.9B和12B。对于每个大小的模型，都有两个版本：一个在Pile数据集上训练，另一个在Pile数据集进行全局去重后训练。所有8种模型大小都在完全相同的数据上，以完全相同的顺序进行训练。我们还为每个模型提供了154个中间检查点，这些检查点作为分支托管在Hugging Face上。

Pythia模型套件旨在推动大型语言模型的科学研究，特别是可解释性研究。尽管其设计目标并非以提升下游性能为核心，但我们发现这些模型达到或超越了类似大小的模型，如OPT和GPT - Neo套件中的模型。

早期版本发布和命名规则详情

此前，我们向公众发布了Pythia套件的早期版本。然而，为了解决一些超参数差异问题，我们决定重新训练该模型套件。本模型卡片列出了更改内容；更多评估和实现细节请参考论文。我们发现两个版本的Pythia模型在基准测试性能上没有差异。旧版本模型仍然可用，但如果您刚开始使用Pythia，建议使用重新训练后的套件。

请注意，Pythia套件中的所有模型在2023年1月进行了重命名。为清晰起见，本模型卡片提供了一个新旧名称对比表，以及确切的参数数量。

🚀 快速开始

Pythia模型可以通过以下代码加载和使用，以下是pythia - 70m - deduped第三个检查点的示例：

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

分支143000与每个模型main分支上的模型检查点完全对应。更多关于如何使用所有Pythia模型的信息，请参考GitHub上的文档。

✨ 主要特性

促进研究：Pythia Scaling Suite专为促进大型语言模型的可解释性研究而开发，提供了一个可控的环境来进行科学实验。
多种模型大小：包含两组各八个不同大小的模型（70M、160M、410M、1B、1.4B、2.8B、6.9B和12B），且每个大小都有在原始Pile数据集和去重后Pile数据集上训练的版本。
丰富的检查点：每个模型提供154个检查点，包括初始step0、10个对数间隔的检查点step{1,2,4...512}以及143个从step1000到step143000均匀间隔的检查点，这些检查点托管在Hugging Face上。
性能表现：尽管设计目标并非以提升下游性能为核心，但模型在性能上达到或超越了类似大小的模型，如OPT和GPT - Neo套件中的模型。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import GPTNeoXForCausalLM, AutoTokenizer

model = GPTNeoXForCausalLM.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

tokenizer = AutoTokenizer.from_pretrained(
  "EleutherAI/pythia-70m-deduped",
  revision="step3000",
  cache_dir="./pythia-70m-deduped/step3000",
)

inputs = tokenizer("Hello, I am", return_tensors="pt")
tokens = model.generate(**inputs)
tokenizer.decode(tokens[0])

高级用法

文档中未提及高级用法示例，故跳过此部分。

📚 详细文档

模型详情

开发者：EleutherAI
模型类型：基于Transformer的语言模型
语言：英语
更多信息：有关训练过程、配置文件和使用细节，请参考Pythia的GitHub仓库。更多评估和实现细节请参考论文。
库：[GPT - NeoX](https://github.com/EleutherAI/gpt - neox)
许可证：Apache 2.0
联系方式：若要询问关于此模型的问题，请加入EleutherAI Discord，并在#release - discussion中发布问题。在EleutherAI Discord询问之前，请先阅读现有的Pythia文档。如需一般通信，请发送邮件至contact@eleuther.ai。

属性	详情
模型类型	基于Transformer的语言模型
训练数据	经过全局去重后的Pile数据集
语言	英语
开发者	EleutherAI
库	GPT - NeoX
许可证	Apache 2.0

Pythia模型	非嵌入参数	层数	模型维度	头数	批次大小	学习率	等效模型
70M	18,915,328	6	512	8	2M	1.0 x 10^-3	—
160M	85,056,000	12	768	12	2M	6.0 x 10^-4	GPT - Neo 125M, OPT - 125M
410M	302,311,424	24	1024	16	2M	3.0 x 10^-4	OPT - 350M
1.0B	805,736,448	16	2048	8	2M	3.0 x 10^-4	—
1.4B	1,208,602,624	24	2048	16	2M	2.0 x 10^-4	GPT - Neo 1.3B, OPT - 1.3B
2.8B	2,517,652,480	32	2560	32	2M	1.6 x 10^-4	GPT - Neo 2.7B, OPT - 2.7B
6.9B	6,444,163,072	32	4096	32	2M	1.2 x 10^-4	OPT - 6.7B
12B	11,327,027,200	36	5120	40	2M	1.2 x 10^-4	—

Pythia套件的工程细节。给定大小的去重和未去重模型具有相同的超参数。“等效”模型具有完全相同的架构和相同数量的非嵌入参数。

使用和限制

预期用途

Pythia的主要预期用途是对大型语言模型的行为、功能和局限性进行研究。该套件旨在为进行科学实验提供一个可控的环境。每个模型还提供154个检查点：初始step0、10个对数间隔的检查点step{1,2,4...512}以及143个从step1000到step143000均匀间隔的检查点，这些检查点托管在Hugging Face上。请注意，分支143000与每个模型main分支上的模型检查点完全对应。

只要您的使用符合Apache 2.0许可证，您也可以对Pythia - 12B - deduped进行进一步的微调并用于部署。Pythia模型可与Hugging Face的Transformers库配合使用。如果您决定使用预训练的Pythia - 12B - deduped作为微调模型的基础，请自行进行风险和偏差评估。

非预期用途

Pythia套件不适合用于部署。它本身不是一个产品，不能用于面向人类的交互。例如，该模型可能会生成有害或冒犯性的文本。请评估与您特定用例相关的风险。

Pythia模型仅支持英语，不适合用于翻译或生成其他语言的文本。

Pythia - 12B - deduped未针对语言模型常见的下游场景进行微调，如撰写特定类型的散文或商业聊天机器人。这意味着Pythia - 12B - deduped不会像ChatGPT这样的产品那样对给定的提示做出响应。这是因为与该模型不同，ChatGPT使用了如基于人类反馈的强化学习（RLHF）等方法进行微调，以更好地“遵循”人类指令。

局限性和偏差

大型语言模型的核心功能是接收一段文本并预测下一个标记。模型使用的标记不一定能产生最“准确”的文本。切勿依赖Pythia - 12B - deduped生成事实准确的输出。

该模型在Pile数据集上进行训练，该数据集已知包含亵渎性和低俗或冒犯性的文本。有关性别、宗教和种族方面的记录偏差讨论，请参考Pile论文的第6节。即使提示本身不包含任何明确的冒犯性内容，Pythia - 12B - deduped也可能会生成社会不可接受或不良的文本。

如果您计划使用通过例如托管推理API生成的文本，建议在向他人展示之前由人工对该语言模型的输出进行审核。请告知您的受众该文本是由Pythia - 12B - deduped生成的。

训练

训练数据

Pythia - 12B - deduped在经过全局去重后的Pile数据集上进行训练。

Pile数据集是一个825GiB的通用英语数据集，由EleutherAI专门为训练大型语言模型而创建。它包含来自22个不同来源的文本，大致分为五类：学术写作（如arXiv）、互联网（如CommonCrawl）、散文（如Project Gutenberg）、对话（如YouTube字幕）和其他（如GitHub、Enron Emails）。有关所有数据源的细分、方法和伦理影响的讨论，请参考Pile论文。有关Pile及其组成数据集的更详细文档，请参考数据表。Pile数据集可以从官方网站或[社区镜像](https://the - eye.eu/public/AI/pile/)下载。

训练过程

所有模型都在完全相同的数据上，以完全相同的顺序进行训练。每个模型在训练期间处理了299,892,736,000个标记，并且每个模型每2,097,152,000个标记保存143个检查点，这些检查点在训练过程中均匀分布，从step1000到step143000（与main相同）。此外，我们还提供了频繁的早期检查点：step0和step{1,2,4...512}。这相当于未去重模型在Pile数据集上训练不到1个周期，而去重后的Pile数据集上训练约1.5个周期。

所有Pythia模型以2M（2,097,152个标记）的批次大小训练了143000步。有关训练过程的更多详细信息，包括[如何复现](https://github.com/EleutherAI/pythia/blob/main/README.md#reproducing - training)，请参考GitHub。Pythia使用与[GPT - NeoX - 20B](https://huggingface.co/EleutherAI/gpt - neox - 20b)相同的分词器。

评估

所有16个Pythia模型都使用[LM Evaluation Harness](https://github.com/EleutherAI/lm - evaluation - harness)进行了评估。您可以在GitHub仓库的results/json/*中按模型和步骤访问评估结果。

展开以下部分，查看所有Pythia和Pythia - deduped模型与OPT和BLOOM的评估结果对比图。

LAMBADA – OpenAI

物理交互：问答（PIQA）

WinoGrande

AI2推理挑战—简单集

SciQ

变更日志

本节比较了之前发布的Pythia v0与当前模型之间的差异。有关这些更改及其背后动机的更多讨论，请参考Pythia论文的附录B。我们发现重新训练Pythia对基准测试性能没有影响。

批次大小统一：所有模型现在都以2M标记的统一批次大小进行训练。此前，参数大小为160M、410M和1.4B的模型以4M标记的批次大小进行训练。
增加检查点：除了每1000个训练步骤保存检查点外，我们还在初始化（step 0）和步骤{1,2,4,8,16,32,64,128,256,512}增加了检查点。
使用Flash Attention：新的重新训练套件中使用了Flash Attention。
学习率调度统一：我们纠正了原始套件中存在的一个小不一致问题：所有2.8B参数或更小的模型的学习率（LR）调度衰减到起始LR的10%作为最小LR，但6.9B和12B模型使用的LR调度衰减到最小LR为0。在重新训练过程中，我们纠正了这一不一致性：所有模型现在都以LR衰减到最大LR的0.1倍作为最小值进行训练。

命名规则和参数数量

Pythia模型在2023年1月进行了重命名。旧的命名规则可能仍会意外地出现在某些文档中。当前的命名规则（70M、160M等）基于总参数数量。

当前Pythia后缀	旧后缀	总参数	非嵌入参数
70M	19M	70,426,624	18,915,328
160M	125M	162,322,944	85,056,000
410M	350M	405,334,016	302,311,424
1B	800M	1,011,781,632	805,736,448
1.4B	1.3B	1,414,647,808	1,208,602,624
2.8B	2.7B	2,775,208,960	2,517,652,480
6.9B	6.7B	6,857,302,016	6,444,163,072
12B	13B	11,846,072,320	11,327,027,200