🚀 TAPAS微型模型在WikiTable Questions (WTQ) 上微调
该模型有两个可用版本。默认版本对应于原始GitHub仓库中的 tapas_wtq_wikisql_sqa_inter_masklm_tiny_reset
检查点。
此模型在MLM和作者称为中间预训练的额外步骤上进行了预训练,然后在 SQA、WikiSQL 上进行链式微调,最后在 WTQ 上微调。它使用相对位置嵌入(即在表格的每个单元格处重置位置索引)。
另一个(非默认)可用版本是:
no_reset
,对应于 tapas_wtq_wikisql_sqa_inter_masklm_tiny
(中间预训练,绝对位置嵌入)。
免责声明:发布TAPAS的团队没有为此模型编写模型卡片,因此此模型卡片由Hugging Face团队和贡献者编写。
🚀 快速开始
你可以使用此模型回答与表格相关的问题。代码示例请参考Hugging Face网站上TAPAS的文档。
✨ 主要特性
- 基于自监督学习,在大量英文维基百科数据上预训练,学习表格和相关文本的内部表示。
- 经过中间预训练,鼓励在表格上进行数值推理。
- 可通过微调用于下游任务,如表格问答。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
结果
模型描述
TAPAS是一个类似BERT的Transformer模型,以自监督方式在大量英文维基百科数据语料库上进行预训练。
这意味着它仅在原始表格和相关文本上进行预训练,没有人工进行任何标注(这就是为什么它可以使用大量公开可用数据),并通过自动过程从这些文本中生成输入和标签。更准确地说,它以两个目标进行预训练:
- 掩码语言模型(MLM):给定一个(扁平化的)表格和相关上下文,模型随机掩码输入中15%的单词,然后将整个(部分掩码的)序列输入模型。模型必须预测被掩码的单词。这与通常逐个处理单词的传统循环神经网络(RNN)不同,也与像GPT这样内部掩码未来标记的自回归模型不同。它允许模型学习表格和相关文本的双向表示。
- 中间预训练:为了鼓励在表格上进行数值推理,作者通过创建数百万个语法生成的训练示例的平衡数据集,额外对模型进行预训练。在这里,模型必须预测(分类)一个句子是否由表格内容支持或反驳。训练示例基于合成语句和反事实语句创建。
通过这种方式,模型学习了表格和相关文本中使用的英语语言的内部表示,然后可用于提取对下游任务有用的特征,如下回答关于表格的问题,或确定一个句子是否由表格内容蕴含或反驳。微调是通过在预训练模型之上添加单元格选择头和聚合头,然后在SQa、WikiSQL和最终的WTQ上联合训练这些随机初始化的分类头和基础模型来完成的。
预期用途和局限性
你可以使用此模型回答与表格相关的问题。
训练过程
预处理
文本使用WordPiece进行小写处理和分词,词汇表大小为30,000。模型的输入形式如下:
[CLS] Question [SEP] Flattened table [SEP]
作者首先使用自动转换脚本将WTQ数据集转换为SQA的格式。
微调
模型在32个Cloud TPU v3核心上进行了50,000步的微调,最大序列长度为512,批量大小为512。在这种设置下,微调大约需要10小时。使用的优化器是Adam,学习率为1.93581e - 5,预热比例为0.128960。添加了归纳偏置,使模型仅选择同一列的单元格。这反映在 TapasConfig
的 select_one_column
参数中。更多详细信息请参阅论文(表11和12)。
引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
author = {Panupong Pasupat and
Percy Liang},
title = {Compositional Semantic Parsing on Semi-Structured Tables},
journal = {CoRR},
volume = {abs/1508.00305},
year = {2015},
url = {http://arxiv.org/abs/1508.00305},
archivePrefix = {arXiv},
eprint = {1508.00305},
timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
biburl = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
🔧 技术细节
文档中关于技术细节的描述较为详细,已在上述详细文档中体现,故不再单独列出此章节。
📄 许可证
本模型使用的许可证为 apache-2.0
。