tapas-large-finetuned-wtq开源表格问答模型 - 支持对表格自然语言问答

首页

Tapas Large Finetuned Wtq

由 google 开发

TAPAS是基于BERT架构的表格问答模型，通过自监督方式在维基百科表格数据上预训练，支持对表格内容进行自然语言问答

问答系统

Transformers

英语开源协议:Apache-2.0 #表格问答系统 #多任务微调 #数值推理

下载量 124.85k

发布时间 : 3/2/2022

模型简介

该模型专门针对维基表格问答任务(WTQ)进行微调，能够理解表格结构并回答相关问题。提供相对位置和绝对位置两个版本，支持数值推理和单元格选择等复杂操作。

模型特点

双重预训练机制

结合掩码语言建模(MLM)和中间预训练，增强表格数值推理能力

多任务链式微调

在SQA、WikiSQL和WTQ三个数据集上联合微调，提升泛化能力

位置嵌入可选

提供相对位置（单元格重置索引）和绝对位置两种嵌入方式

联合预测架构

同时训练单元格选择头和聚合头，支持离散值和聚合操作预测

模型能力

表格结构理解

自然语言问题解析

表格单元格选择

数值比较与计算

聚合操作预测（如求和、计数等）

使用案例

知识问答

维基百科表格问答

回答关于维基百科信息框和数据表格的自然语言问题

在WTQ开发集上达到50.97%准确率

商业智能

财务报表分析

解析财务报表并回答关于收入、增长等指标的查询

🚀 TAPAS大型模型在WikiTable Questions (WTQ)上的微调版本

该模型有两个可用版本。默认版本对应于原始GitHub仓库中的tapas_wtq_wikisql_sqa_inter_masklm_large_reset检查点。此模型先在MLM和作者所称的中间预训练步骤上进行预训练，然后依次在SQA、WikiSQL和WTQ上进行微调。它使用相对位置嵌入（即在表格的每个单元格处重置位置索引）。

另一个（非默认）可用版本是：

no_reset，对应于tapas_wtq_wikisql_sqa_inter_masklm_large（中间预训练，绝对位置嵌入）。

声明：发布TAPAS的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队及贡献者编写。

✨ 主要特性

有两个可用版本，分别采用相对位置嵌入和绝对位置嵌入。
经过中间预训练和多数据集微调，适合处理表格相关问题。

📚 详细文档

结果

规模	位置嵌入设置	开发集准确率	链接
大型	无重置	0.5062	tapas-large-finetuned-wtq（使用绝对位置嵌入）
大型	重置	0.5097	tapas-large-finetuned-wtq
基础版	无重置	0.4525	tapas-base-finetuned-wtq（使用绝对位置嵌入）
基础版	重置	0.4638	tapas-base-finetuned-wtq
中型	无重置	0.4324	tapas-medium-finetuned-wtq（使用绝对位置嵌入）
中型	重置	0.4324	tapas-medium-finetuned-wtq
小型	无重置	0.3681	tapas-small-finetuned-wtq（使用绝对位置嵌入）
小型	重置	0.3762	tapas-small-finetuned-wtq
迷你版	无重置	0.2783	tapas-mini-finetuned-wtq（使用绝对位置嵌入）
迷你版	重置	0.2854	tapas-mini-finetuned-wtq
微型	无重置	0.0823	tapas-tiny-finetuned-wtq（使用绝对位置嵌入）
微型	重置	0.1039	tapas-tiny-finetuned-wtq

模型描述

TAPAS是一个类似BERT的Transformer模型，以自监督的方式在来自维基百科的大量英文数据语料库上进行预训练。这意味着它仅在原始表格和相关文本上进行预训练，没有人工进行任何标注（这就是为什么它可以使用大量公开可用数据），并通过自动流程从这些文本中生成输入和标签。更准确地说，它通过两个目标进行预训练：

掩码语言模型（MLM）：给定一个（扁平化的）表格和相关上下文，模型随机掩码输入中15%的单词，然后将整个（部分掩码的）序列输入模型。模型随后需要预测被掩码的单词。这与通常逐个查看单词的传统循环神经网络（RNN）不同，也与像GPT这样内部掩码未来标记的自回归模型不同。它允许模型学习表格和相关文本的双向表示。
中间预训练：为了鼓励在表格上进行数值推理，作者通过创建数百万个语法生成的训练示例的平衡数据集，额外对模型进行预训练。在这里，模型必须预测（分类）一个句子是否得到表格内容的支持或反驳。训练示例基于合成语句和反事实语句创建。

通过这种方式，模型学习到表格和相关文本中使用的英语语言的内部表示，然后可用于提取对下游任务有用的特征，如下回答关于表格的问题，或确定一个句子是否被表格内容所蕴含或反驳。微调是通过在预训练模型之上添加一个单元格选择头和聚合头，然后在SQa、WikiSQL和最终的WTQ上与基础模型一起联合训练这些随机初始化的分类头来完成的。

预期用途和限制

你可以使用此模型回答与表格相关的问题。关于代码示例，请参考HuggingFace网站上TAPAS的文档。

训练过程

预处理

文本使用WordPiece进行小写处理和分词，词汇表大小为30,000。模型的输入形式如下：

[CLS] 问题 [SEP] 扁平化表格 [SEP]

作者首先使用自动转换脚本将WTQ数据集转换为SQA的格式。

微调

该模型在32个Cloud TPU v3核心上进行了50,000步的微调，最大序列长度为512，批次大小为512。在这种设置下，微调大约需要10小时。使用的优化器是Adam，学习率为1.93581e - 5，热身比例为0.128960。添加了归纳偏置，使模型仅选择同一列的单元格。这反映在TapasConfig的select_one_column参数中。更多详细信息请参阅论文（表11和12）。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@article{DBLP:journals/corr/PasupatL15,
  author    = {Panupong Pasupat and
               Percy Liang},
  title     = {Compositional Semantic Parsing on Semi-Structured Tables},
  journal   = {CoRR},
  volume    = {abs/1508.00305},
  year      = {2015},
  url       = {http://arxiv.org/abs/1508.00305},
  archivePrefix = {arXiv},
  eprint    = {1508.00305},
  timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}