🚀 Pile-T5 XXL
Pile-T5 XXL 是一个基于编码器 - 解码器架构的模型,它使用 T5x 库在 the Pile 数据集上进行训练。该模型采用了与原始 T5 模型类似的 MLM 目标,训练了 200 万步,处理了大约 2 万亿个标记。Pile-T5 XXL 的 Hugging Face 版本借鉴了 UMT5 的模型实现,它使用了 T5x 的可扩展模型实现,并采用了 LlamaTokenizer
。
✨ 主要特性
- 基于 Transformer 架构:采用先进的 Transformer 架构,具备强大的语言处理能力。
- 大规模训练:在 825GiB 的英文通用数据集 the Pile 上进行训练,学习到丰富的语言知识。
- 可扩展性:使用 T5x 库的可扩展模型实现,便于进一步开发和优化。
📦 安装指南
Pile-T5 可以使用 AutoModelForSeq2SeqLM
功能进行加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-xxl")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-xxl")
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于 Transformer 的语言模型 |
训练数据 |
the Pile,一个 825GiB 的英文通用数据集,包含来自 22 个不同来源的文本,大致分为学术写作、互联网、散文、对话和其他杂项五类。 |
开发者 |
EleutherAI |
语言 |
英语 |
许可证 |
Apache 2.0 |
超参数详情
超参数 |
值 |
nparameters |
11135426560 |
nencoder layers |
24 |
ndecoder layers |
24 |
dmodel |
10240 |
demb |
4096 |
nheads |
64 |
dhead |
64 |
nvocab |
32128 |
序列长度 |
512 |
使用与限制
预期用途
Pile - T5 主要是为研究目的而开发的。它学习英语的内部表示,可用于提取对下游任务有用的特征。除了科学用途外,只要您的使用符合 Apache 2.0 许可证,您还可以对 Pile - T5 进行进一步的微调并将其用于部署。该模型可与 Transformers 库 配合使用。如果您决定使用预训练的 Pile - T5 作为微调模型的基础,请注意您需要进行自己的风险和偏差评估。
非预期用途
Pile - T5 不 适合直接部署。它不是一个产品,在没有监督的情况下不能用于面向人类的交互。Pile - T5 没有针对语言模型常见的下游任务进行微调,例如撰写特定类型的散文或商业聊天机器人。这意味着 Pile - T5 可能不会像 ChatGPT 等产品那样对给定的提示做出响应。这是因为与 Pile - T5 不同,ChatGPT 使用了如基于人类反馈的强化学习(RLHF)等方法进行微调,以更好地“理解”人类指令和对话。此外,该模型仅支持英语,因此不能用于翻译或生成其他语言的文本。
局限性和偏差
Pile - T5 的核心功能是接收一个部分被掩码标记替换的文本字符串,并预测替换这些掩码标记的标记序列。请记住,统计上最可能的标记序列不一定能产生最“准确”的文本。绝不要依赖 Pile - T5 来产生事实准确的输出。该模型在 the Pile 数据集上进行训练,该数据集包含亵渎性、淫秽或其他冒犯性的文本。有关性别、宗教和种族方面的记录偏差的讨论,请参阅 the Pile 论文的第 6 节。即使提示本身不包含任何明确的冒犯性内容,Pile - T5 也可能产生社会不可接受或不良的文本。我们建议在将该模型的输出呈现给人类读者之前进行筛选。请告知您的受众您正在使用人工智能生成的文本。
训练
训练数据集
the Pile 是一个 825GiB 的英文通用数据集,由 EleutherAI 专门为训练大语言模型而创建。它包含来自 22 个不同来源的文本,大致分为五类:学术写作(如 arXiv)、互联网(如 CommonCrawl)、散文(如 Project Gutenberg)、对话(如 YouTube 字幕)和其他杂项(如 GitHub、Enron Emails)。有关所有数据源、方法以及伦理影响的详细信息,请参阅 the Pile 论文。如需了解关于 the Pile 及其组成数据集的更详细文档,请参考 数据手册。the Pile 可以从 官方网站 或 社区镜像 下载。在用于训练 Pile - T5 之前,the Pile 进行了去重处理。
训练过程
Pile - T5 以大约 100 万个标记的批量大小(每个批次包含 2048 个长度为 512 的序列)进行训练,总共训练了 200 万步。训练采用了跨度损坏目标。
训练检查点
Pile - T5 的中间检查点可以在本仓库中访问。总共有 200 个检查点,间隔为 10000 步。对于可用于使用 T5x 库进行微调的 T5x 原生检查点,请参考 此处。训练损失(tfevent 格式)和验证困惑度(jsonl 格式)可以在 此处 找到。
评估
Pile - T5 XXL 在 SuperGLUE、CodeXGLUE 上进行了评估。一个经过 Flan 微调的版本在 Flan Held In 任务、MMLU 和 BBH 上进行了评估。评估结果可在 博客文章 中查看。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}