🚀 TAPAS大型模型在表格事实核查(TabFact)上的微调
本模型可使用的版本有两个。最新版本(也是默认版本)对应于原始GitHub仓库中的 tapas_tabfact_inter_masklm_large_reset
检查点。
该模型先在MLM和作者所称的中间预训练步骤上进行预训练,然后在TabFact上进行微调。默认情况下,它使用相对位置嵌入(即在表格的每个单元格处重置位置索引)。
另一个(非默认)可使用的版本是使用绝对位置嵌入的版本:
no_reset
,对应于 tapas_tabfact_inter_masklm_large
免责声明:发布TAPAS的团队并未为该模型撰写模型卡片,此模型卡片由Hugging Face团队及贡献者撰写。
✨ 主要特性
- 有两个可使用版本,默认版本使用相对位置嵌入,非默认版本使用绝对位置嵌入。
- 经过预训练和微调,可用于表格事实核查任务。
🚀 快速开始
此模型可用于分类判断一个句子是否得到表格内容的支持或反驳。关于代码示例,请参考Hugging Face网站上TAPAS的文档。
📚 详细文档
模型描述
TAPAS是一个类似BERT的Transformer模型,以自监督的方式在来自维基百科的大量英文数据语料库上进行预训练。这意味着它仅在原始表格和相关文本上进行预训练,没有人工进行任何标注(这就是它可以使用大量公开可用数据的原因),并通过自动流程从这些文本中生成输入和标签。更确切地说,它通过两个目标进行预训练:
- 掩码语言模型(MLM):给定一个(扁平化的)表格和相关上下文,模型随机掩码输入中15%的单词,然后将整个(部分掩码的)序列输入模型。接着,模型需要预测被掩码的单词。这与传统的循环神经网络(RNN)不同,RNN通常逐个处理单词,也与像GPT这样的自回归模型不同,自回归模型会在内部掩码未来的标记。这使得模型能够学习表格和相关文本的双向表示。
- 中间预训练:为了鼓励在表格上进行数值推理,作者额外通过创建一个包含数百万个语法生成的训练示例的平衡数据集来预训练模型。在这里,模型必须预测(分类)一个句子是否得到表格内容的支持或反驳。训练示例基于合成语句和反事实语句创建。
通过这种方式,模型学习到表格和相关文本中使用的英语的内部表示,然后可用于提取对下游任务有用的特征,如下回答关于表格的问题,或确定一个句子是否被表格内容所蕴含或反驳。微调是通过在预训练模型之上添加一个分类头,然后在TabFact上联合训练这个随机初始化的分类头和基础模型来完成的。
预期用途和限制
你可以使用此模型来分类判断一个句子是否得到表格内容的支持或反驳。
训练过程
预处理
文本先转换为小写,然后使用WordPiece进行分词,词汇表大小为30,000。模型的输入形式如下:
[CLS] 句子 [SEP] 扁平化表格 [SEP]
微调
该模型在32个Cloud TPU v3核心上进行了80,000步的微调,最大序列长度为512,批量大小为512。在这种设置下,微调大约需要14小时。使用的优化器是Adam,学习率为2e-5,热身比例为0.05。更多详细信息请参阅论文(附录A2)。
BibTeX引用和引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{2019TabFactA,
title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
booktitle = {International Conference on Learning Representations (ICLR)},
address = {Addis Ababa, Ethiopia},
month = {April},
year = {2020}
}
📄 许可证
本模型使用的许可证为Apache-2.0。
属性 |
详情 |
模型类型 |
TAPAS大型模型在表格事实核查(TabFact)上的微调版本 |
训练数据 |
tab_fact |