🚀 Pile-T5 Base
Pile-T5 Base 是一个基于编码器-解码器架构的模型,它使用 T5x 库在 the Pile 数据集上进行训练。该模型采用了类似于原始 T5 模型的 MLM 目标,训练了 200 万步,处理了大约 2 万亿个标记。Pile-T5 Base 的 Hugging Face 版本借鉴了 UMT5 的模型实现,它使用了 T5x 可扩展的模型实现,并采用了 LlamaTokenizer
。
🚀 快速开始
Pile-T5 可以使用 AutoModelForSeq2SeqLM
功能进行加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-base")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-base")
✨ 主要特性
- 基于编码器-解码器架构,在大规模文本数据集上训练。
- 采用 MLM 目标进行训练,学习语言的内在表示。
- 借鉴 UMT5 模型实现,使用
LlamaTokenizer
。
📚 详细文档
模型详情
超参数 |
值 |
nparameters |
247586304 |
nencoder layers |
12 |
ndecoder layers |
12 |
dmodel |
2048 |
demb |
768 |
nheads |
12 |
dhead |
64 |
nvocab |
32128 |
序列长度 |
512 |
使用场景与限制
预期用途
Pile-T5 主要为研究目的而开发。它学习英语的内在表示,可用于提取对下游任务有用的特征。除科学用途外,只要符合 Apache 2.0 许可证,你还可以对 Pile-T5 进行进一步微调并部署。该模型可与 Transformers 库 配合使用。如果你决定使用预训练的 Pile-T5 作为微调模型的基础,请进行自己的风险和偏差评估。
非预期用途
Pile-T5 不适合 直接部署。它不是一个产品,在没有监督的情况下不能用于面向人类的交互。Pile-T5 没有针对语言模型常见的下游任务进行微调,如撰写特定体裁的散文或商业聊天机器人。这意味着 Pile-T5 可能 不会 像 ChatGPT 等产品那样对给定提示做出响应。这是因为与 Pile-T5 不同,ChatGPT 使用了人类反馈强化学习(RLHF)等方法进行微调,以更好地“理解”人类指令和对话。此模型仅支持英语,因此不能用于翻译或生成其他语言的文本。
限制与偏差
Pile-T5 的核心功能是对部分被掩码标记替换的文本字符串进行预测,以生成替换这些掩码标记的标记序列。请记住,统计上最可能的标记序列不一定能产生最“准确”的文本。切勿依赖 Pile-T5 生成事实准确的输出。该模型在 the Pile 数据集上进行训练,该数据集包含亵渎性和低俗或冒犯性的文本。有关性别、宗教和种族方面的记录偏差讨论,请参阅 the Pile 论文的第 6 节。即使提示本身不包含任何明确的冒犯性内容,Pile-T5 也可能产生社会不可接受或不良的文本。我们建议在将此模型的输出呈现给人类读者之前进行筛选。请告知你的受众你使用的是人工智能生成的文本。
训练
训练数据集
The Pile 是一个 825GiB 的英语通用数据集,由 EleutherAI 专门为训练大语言模型而创建。它包含来自 22 个不同来源的文本,大致分为五类:学术写作(如 arXiv)、互联网(如 CommonCrawl)、散文(如 Project Gutenberg)、对话(如 YouTube 字幕)和其他(如 GitHub、安然邮件)。有关所有数据源的细分、方法和伦理影响的讨论,请参阅 the Pile 论文。有关 The Pile 及其组件数据集的更详细文档,请参考 数据说明书。The Pile 可以从 官方网站 或 社区镜像 下载。在用于训练 Pile-T5 之前,The Pile 进行了去重处理。
训练过程
Pile-T5 的训练批次大小约为 100 万个标记(每个批次包含 2048 个长度为 512 的序列),总共训练了 200 万步。训练采用了跨度损坏目标。
训练检查点
Pile-T5 的中间检查点可在本仓库中获取。总共有 200 个检查点,间隔为 10000 步。对于可用于使用 T5x 库进行微调的 T5x 原生检查点,请参考 此处。训练损失(tfevent 格式)和验证困惑度(jsonl 格式)可在 此处 找到。
评估
Pile-T5 Base 在 SuperGLUE、CodeXGLUE 上进行了评估。一个经过 Flan 微调的版本在 Flan Held In 任务上进行了评估。结果可在 博客文章 中查看。
📄 许可证
本项目采用 Apache 2.0 许可证。
📚 引用
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}