TAPAS开源表格问答模型 - 免费部署实现英文表格数据智能问答

首页

Tapas Medium Finetuned Wikisql Supervised

由 google 开发

TAPAS是一种基于Transformer的表格问答模型，通过自监督方式在维基百科英文表格数据上预训练，并在WikiSQL数据集上监督微调。

问答系统

Transformers

英语开源协议:Apache-2.0 #表格问答 #弱监督学习 #数值推理

下载量 19

发布时间 : 3/2/2022

模型简介

该模型专门用于表格相关问答任务，支持从结构化表格中提取信息并回答问题。

模型特点

表格理解能力

能够理解结构化表格数据，并从中提取相关信息

监督式微调

在WikiSQL数据集上进行监督式微调，优化表格问答性能

相对位置嵌入

采用表格单元格位置重置的相对位置嵌入方式，增强表格理解

模型能力

表格数据理解

结构化数据问答

表格信息提取

使用案例

商业智能

财务报表分析

从财务报表中提取特定指标并回答相关问题

数据查询

数据库查询

将自然语言问题转换为结构化查询

🚀 TAPAS中型模型在WikiSQL上的监督式微调

本模型有两个版本可供使用。默认版本对应于原始GitHub仓库中的tapas_wikisql_sqa_inter_masklm_medium_reset检查点。该模型在掩码语言模型（MLM）和作者所称的中间预训练的额外步骤上进行了预训练，然后在语义问答数据集（SQA）和WikiSQL上进行链式微调。它使用相对位置嵌入（即在表格的每个单元格处重置位置索引）。

另一个（非默认）版本为：

no_reset，对应于tapas_wikisql_sqa_inter_masklm_medium（中间预训练，绝对位置嵌入）。

免责声明：发布TAPAS的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队及贡献者编写。

✨ 主要特性

模型描述

TAPAS是一个类似BERT的Transformer模型，以自监督的方式在来自维基百科的大量英文数据语料库上进行预训练。这意味着它仅在原始表格和相关文本上进行预训练，没有人工以任何方式对其进行标注（这就是它可以使用大量公开可用数据的原因），并通过自动过程从这些文本中生成输入和标签。更确切地说，它以两个目标进行预训练：

掩码语言模型（MLM）：给定一个（扁平化的）表格和相关上下文，模型随机掩盖输入中15%的单词，然后将整个（部分掩码的）序列输入模型。模型随后需要预测被掩盖的单词。这与通常逐个处理单词的传统循环神经网络（RNN）不同，也与像GPT这样在内部掩盖未来标记的自回归模型不同。它允许模型学习表格和相关文本的双向表示。
中间预训练：为了鼓励对表格进行数值推理，作者通过创建一个由数百万个语法生成的训练示例组成的平衡数据集，对模型进行了额外的预训练。在此，模型必须预测（分类）一个句子是否得到表格内容的支持或反驳。训练示例基于合成语句以及反事实语句创建。

通过这种方式，模型学习到表格和相关文本中使用的英语的内部表示，然后可用于提取对下游任务有用的特征，例如回答关于表格的问题，或确定一个句子是否被表格内容所蕴含或反驳。微调是通过在预训练模型之上添加单元格选择头和聚合头来完成的，然后在SQA和WikiSQL上与基础模型联合训练这些随机初始化的分类头。

预期用途与限制

你可以使用此模型回答与表格相关的问题。有关代码示例，请参考Hugging Face网站上TAPAS的文档。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

训练过程

预处理

文本使用WordPiece进行小写处理和分词，词汇表大小为30,000。模型的输入形式如下：

[CLS] 问题 [SEP] 扁平化表格 [SEP]

作者首先使用自动转换脚本将WikiSQL数据集转换为SQA的格式。

微调

该模型在32个Cloud TPU v3核心上进行了50,000步的微调，最大序列长度为512，批量大小为512。在这种设置下，微调大约需要10小时。使用的优化器是Adam，学习率为6.17164e - 5，热身比例为0.1424。更多详细信息请参阅论文（表11和表12）。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@article{DBLP:journals/corr/abs-1709-00103,
  author    = {Victor Zhong and
               Caiming Xiong and
               Richard Socher},
  title     = {Seq2SQL: Generating Structured Queries from Natural Language using
               Reinforcement Learning},
  journal   = {CoRR},
  volume    = {abs/1709.00103},
  year      = {2017},
  url       = {http://arxiv.org/abs/1709.00103},
  archivePrefix = {arXiv},
  eprint    = {1709.00103},
  timestamp = {Mon, 13 Aug 2018 16:48:41 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1709-00103.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}