🚀 TAPAS中型模型
TAPAS中型模型有2个可用版本,能助力表格数据处理和问答任务。最新版本为默认版本,对应原始GitHub仓库中的tapas_inter_masklm_medium_reset
检查点。该模型在MLM和作者所称的中间预训练上进行了预训练,默认使用相对位置嵌入。
✨ 主要特性
- 双版本支持:提供默认的相对位置嵌入版本和非默认的绝对位置嵌入版本(
revision="no_reset"
,对应tapas_inter_masklm_medium
)。
- 自监督预训练:在大量英文维基百科数据上进行自监督预训练,通过掩码语言建模(MLM)和中间预训练学习表格和相关文本的双向表示。
- 数值推理能力:通过中间预训练鼓励在表格上进行数值推理,能够预测句子是否被表格内容支持或反驳。
📚 详细文档
模型描述
TAPAS是一个类似BERT的Transformer模型,以自监督方式在大量英文维基百科数据语料上进行预训练。这意味着它仅在原始表格和相关文本上进行预训练,无需人工标注,通过自动过程从这些文本生成输入和标签。具体而言,它通过两个目标进行预训练:
- 掩码语言建模(MLM):模型随机掩盖输入中15%的单词,然后将整个(部分掩盖)序列输入模型,预测被掩盖的单词。这与传统的循环神经网络(RNN)和自回归模型(如GPT)不同,使模型能够学习表格和相关文本的双向表示。
- 中间预训练:为了鼓励在表格上进行数值推理,作者通过创建数百万个语法训练示例的平衡数据集进一步预训练模型。模型需要预测句子是否被表格内容支持或反驳,训练示例基于合成和反事实陈述创建。
预期用途和限制
可以使用原始模型获取表-问题对的隐藏表示,但它主要用于在下游任务(如问答或序列分类)上进行微调。可在模型中心查找感兴趣任务的微调版本。
训练过程
预处理
文本先转换为小写,然后使用WordPiece进行分词,词汇表大小为30,000。模型的输入形式为:
[CLS] 句子 [SEP] 扁平化表格 [SEP]
预训练
模型在32个Cloud TPU v3核心上进行了1,000,000步的预训练,最大序列长度为512,批次大小为512。在这种设置下,仅进行MLM预训练大约需要3天。此外,模型还在第二个任务(表格蕴含)上进行了进一步预训练。更多详细信息请参阅原始TAPAS 论文和后续论文。
使用的优化器是Adam,学习率为5e-5,预热比例为0.01。
BibTeX引用和引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 许可证
本模型采用Apache-2.0许可证。