🚀 Pile-T5 Large
Pile-T5 Large是一个编码器-解码器模型,它使用T5x库在the Pile数据集上进行训练。该模型采用类似于原始T5模型的MLM目标,训练了200万步,大约处理了2万亿个标记。Pile-T5 Large的Hugging Face版本借鉴了UMT5的模型实现,它使用了T5x可扩展的模型实现,并采用了LlamaTokenizer
。
✨ 主要特性
- 基于Transformer架构的语言模型,在大规模英文数据集上训练。
- 采用T5x库进行训练,具有可扩展性。
- 借鉴UMT5的模型实现,使用
LlamaTokenizer
。
📦 安装指南
Pile-T5可以使用AutoModelForSeq2SeqLM
功能进行加载:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pile-t5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("EleutherAI/pile-t5-large")
📚 详细文档
模型详情
属性 |
详情 |
模型类型 |
基于Transformer的语言模型 |
训练数据 |
the Pile数据集,这是一个825GiB的英文通用数据集,包含来自22个不同来源的文本,大致分为学术写作、互联网、散文、对话和其他杂项五类。 |
模型超参数
超参数 |
值 |
nparameters |
783173632 |
nencoder layers |
24 |
ndecoder layers |
24 |
dmodel |
2816 |
demb |
1024 |
nheads |
16 |
dhead |
64 |
nvocab |
32128 |
序列长度 |
512 |
使用场景与限制
预期用途
Pile-T5主要为研究目的而开发。它学习英语的内部表示,可用于提取对下游任务有用的特征。除科学用途外,只要使用符合Apache 2.0许可证,你还可以对Pile-T5进行进一步微调并部署。该模型可与Transformers库配合使用。如果你决定使用预训练的Pile-T5作为微调模型的基础,请自行进行风险和偏差评估。
非预期用途
Pile-T5 不适合 直接部署。它不是一个产品,在没有监督的情况下不能用于面向人类的交互。Pile-T5没有针对语言模型常见的下游任务进行微调,如撰写特定体裁的散文或商业聊天机器人。这意味着Pile-T5可能 不会 像ChatGPT等产品那样对给定提示做出响应。因为与Pile-T5不同,ChatGPT使用了人类反馈强化学习(RLHF)等方法进行微调,以更好地“理解”人类指令和对话。此外,该模型仅支持英语,因此不能用于翻译或生成其他语言的文本。
局限性和偏差
Pile-T5的核心功能是对部分被掩码标记替换的文本字符串进行处理,并预测替换这些掩码标记的标记序列。但请记住,统计上最可能的标记序列不一定能产生最“准确”的文本。切勿依赖Pile-T5生成事实准确的输出。该模型在the Pile数据集上进行训练,该数据集包含亵渎性、淫秽或其他冒犯性的文本。有关性别、宗教和种族方面的记录偏差讨论,请参阅the Pile论文的第6节。即使提示本身不包含任何明确的冒犯性内容,Pile-T5也可能产生社会不可接受或不良的文本。我们建议在将该模型的输出呈现给人类读者之前进行筛选,并告知受众你使用的是人工智能生成的文本。
训练
训练数据集
the Pile是一个825GiB的英文通用数据集,由EleutherAI专门为训练大语言模型而创建。它包含来自22个不同来源的文本,大致分为学术写作(如arXiv)、互联网(如CommonCrawl)、散文(如Project Gutenberg)、对话(如YouTube字幕)和其他杂项(如GitHub、Enron Emails)五类。有关所有数据源、方法和伦理影响的详细信息,请参阅the Pile论文。如需更详细的文档,请查阅数据说明书。the Pile数据集可从官方网站或社区镜像下载。在用于训练Pile-T5之前,the Pile数据集进行了去重处理。
训练过程
Pile-T5以约100万个标记(每个批次2048个长度为512的序列)的批量大小进行训练,总共训练了200万步。训练采用了跨度损坏目标。
训练检查点
Pile-T5的中间检查点可在本仓库中获取。总共有200个检查点,间隔为10000步。如需可用于使用T5x库进行微调的T5x原生检查点,请参考此处。训练损失(tfevent格式)和验证困惑度(jsonl格式)可在此处找到。
评估
Pile-T5 Large在SuperGLUE、CodeXGLUE上进行了评估。一个经过Flan微调的版本在Flan Held In任务上进行了评估。结果可在博客文章中查看。
BibTeX
@misc{2024PileT5,
author = {Lintang Sutawika and Aran Komatsuzaki and Colin Raffel},
title = {Pile-T5},
year = {2024},
url = {https://blog.eleuther.ai/pile-t5/},
note = {Blog post},
}
许可证
本模型采用Apache 2.0许可证。