tapas-base-finetuned-tabfact开源模型 - 免费部署判断句子与表格内容支持关系

首页

Tapas Base Finetuned Tabfact

由 google 开发

TAPAS是基于Transformer架构的类BERT模型，专门用于处理表格数据，通过自监督方式在维基百科英文表格数据上预训练，并在TabFact数据集上微调，用于判断句子是否被表格内容支持或反驳。

问答系统

Transformers

英语开源协议:Apache-2.0 #表格蕴含判定 #结构化数据推理 #双模态预训练

下载量 6,669

发布时间 : 3/2/2022

模型简介

该模型适用于判断句子是否被表格内容支持或反驳，支持表格问答或句子与表格内容的蕴含关系判定。

模型特点

双预训练目标

结合掩码语言建模（MLM）和中间预训练，增强表格数值推理能力。

相对位置嵌入

默认版本采用相对位置嵌入，在表格每个单元格重置位置索引，优化表格处理能力。

合成训练样本

中间预训练阶段使用数百万合成训练样本构建平衡数据集，提升模型泛化能力。

模型能力

表格事实核查

表格问答

蕴含关系判定

使用案例

数据验证

表格内容验证

验证给定句子是否被表格内容支持或反驳。

智能问答

基于表格的问答

回答基于表格内容的自然语言问题。

🚀 TAPAS基础模型在表格事实核查（TabFact）上的微调版本

本模型有两个可用版本。最新版本（也是默认版本）对应于原始GitHub仓库中的 tapas_tabfact_inter_masklm_base_reset 检查点。该模型在掩码语言模型（MLM）和作者所称的中间预训练的额外步骤上进行了预训练，然后在TabFact上进行了微调。默认情况下，它使用相对位置嵌入（即在表格的每个单元格处重置位置索引）。

另一个（非默认）可用版本是使用绝对位置嵌入的版本：

no_reset，对应于 tapas_tabfact_inter_masklm_base

免责声明：发布TAPAS的团队没有为该模型编写模型卡片，因此本模型卡片由Hugging Face团队和贡献者编写。

✨ 主要特性

本模型有两个版本，默认版本使用相对位置嵌入，非默认版本使用绝对位置嵌入。
通过在掩码语言模型和中间预训练步骤上进行预训练，然后在TabFact上进行微调，能够学习表格和相关文本中英语语言的内部表示。
可用于分类句子是否得到表格内容的支持或反驳。

📚 详细文档

模型描述

TAPAS是一个类似BERT的Transformer模型，以自监督的方式在来自维基百科的大量英语数据语料库上进行了预训练。这意味着它仅在原始表格和相关文本上进行预训练，没有人工以任何方式对其进行标注（这就是为什么它可以使用大量公开可用的数据），并通过自动过程从这些文本中生成输入和标签。更准确地说，它以两个目标进行预训练：

掩码语言模型（MLM）：给定一个（扁平化的）表格和相关上下文，模型随机掩盖输入中15%的单词，然后将整个（部分掩盖的）序列输入模型。然后模型必须预测被掩盖的单词。这与通常逐个查看单词的传统循环神经网络（RNN）不同，也与像GPT这样在内部掩盖未来标记的自回归模型不同。它允许模型学习表格和相关文本的双向表示。
中间预训练：为了鼓励在表格上进行数值推理，作者通过创建数百万个语法创建的训练示例的平衡数据集，额外对模型进行了预训练。在这里，模型必须预测（分类）一个句子是否得到表格内容的支持或反驳。训练示例基于合成语句和反事实语句创建。

通过这种方式，模型学习了表格和相关文本中使用的英语语言的内部表示，然后可用于提取对下游任务有用的特征，如下回答关于表格的问题，或确定一个句子是否得到表格内容的蕴含或反驳。微调是通过在预训练模型之上添加一个分类头，然后在TabFact上联合训练这个随机初始化的分类头和基础模型来完成的。

预期用途和限制

你可以使用此模型来分类一个句子是否得到表格内容的支持或反驳。有关代码示例，请参考HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本使用WordPiece进行小写处理和分词，词汇表大小为30,000。然后模型的输入形式如下：

[CLS] 句子 [SEP] 扁平化表格 [SEP]

微调

该模型在32个Cloud TPU v3核心上进行了80,000步的微调，最大序列长度为512，批量大小为512。在这种设置下，微调大约需要14小时。使用的优化器是Adam，学习率为2e-5，热身比率为0.05。更多详细信息请参阅论文（附录A2）。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{2019TabFactA,
  title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
  author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
  booktitle = {International Conference on Learning Representations (ICLR)},
  address = {Addis Ababa, Ethiopia},
  month = {April},
  year = {2020}
}