tapas-large开源表格数据处理模型 - 免费处理表格数据及关联文本

首页

Tapas Large

由 google 开发

TAPAS是基于Transformer架构的BERT类模型，专门用于处理表格数据及相关文本，通过自监督方式在海量英文维基百科表格及关联文本上预训练而成。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #表格问答 #表格推理 #掩码语言建模

下载量 211

发布时间 : 3/2/2022

模型简介

TAPAS模型通过掩码语言建模和中间预训练学习表格与文本的双向表征，主要用于表格问答或陈述验证等下游任务。

模型特点

表格与文本联合处理

能够同时处理表格数据和相关文本，学习两者之间的关联表征。

双重预训练目标

结合掩码语言建模和中间预训练，增强表格数值推理能力。

位置嵌入灵活性

提供相对位置嵌入（默认）和绝对位置嵌入两种版本，适应不同需求。

模型能力

表格数据理解

文本-表格关联分析

表格问答

陈述验证

使用案例

信息检索

表格问答系统

根据用户问题从表格中提取或推断答案

可构建高效的表格问答应用

数据验证

陈述真实性验证

验证文本陈述是否被表格数据支持

可用于事实核查等场景

🚀 TAPAS大型模型

TAPAS大型模型有两个版本可供使用，能助力处理表格相关的自然语言任务，有效提升表格数据的理解和分析能力。

🚀 快速开始

此模型有2个可用版本。最新版本即默认版本，对应原始GitHub仓库中的 tapas_inter_masklm_large_reset 检查点。该模型在掩码语言模型（MLM）和作者所称的中间预训练的额外步骤上进行了预训练。它默认使用相对位置嵌入（即在表格的每个单元格处重置位置索引）。

另一个（非默认）可用版本是使用绝对位置嵌入的版本：

revision="no_reset"，对应 tapas_inter_masklm_large。

声明：发布TAPAS的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队及贡献者编写。

✨ 主要特性

模型描述

TAPAS是一个类似BERT的Transformer模型，以自监督的方式在来自维基百科的大量英文数据语料库上进行预训练。这意味着它仅在原始表格和相关文本上进行预训练，没有人工以任何方式对其进行标注（这就是为什么它可以使用大量公开可用的数据），并通过自动过程从这些文本中生成输入和标签。更准确地说，它以两个目标进行预训练：

掩码语言模型（MLM）：给定一个（扁平化的）表格和相关上下文，模型随机掩码输入中15%的单词，然后将整个（部分掩码的）序列输入模型。接着，模型必须预测被掩码的单词。这与通常逐个处理单词的传统循环神经网络（RNN）不同，也与像GPT这样在内部掩码未来标记的自回归模型不同。它允许模型学习表格和相关文本的双向表示。
中间预训练：为了鼓励对表格进行数值推理，作者通过创建数百万个语法生成的训练示例的平衡数据集，对模型进行了额外的预训练。在这里，模型必须预测（分类）一个句子是否得到表格内容的支持或反驳。训练示例基于合成语句和反事实语句创建。

通过这种方式，模型学习了表格和相关文本中使用的英语的内部表示，然后可用于提取对下游任务有用的特征，如下回答关于表格的问题，或确定一个句子是否被表格内容所蕴含或反驳。微调是通过在预训练模型之上添加一个或多个分类头，然后在下游任务上联合训练这些随机初始化的分类头和基础模型来完成的。

预期用途与限制

你可以使用原始模型来获取关于表格 - 问题对的隐藏表示，但它主要用于在下游任务（如问答或序列分类）上进行微调。请查看模型中心，以查找针对你感兴趣的任务进行微调的版本。

训练过程

预处理

文本使用WordPiece进行小写处理和分词，词汇表大小为30,000。模型的输入形式如下：

[CLS] 句子 [SEP] 扁平化表格 [SEP]

预训练

该模型在32个Cloud TPU v3核心上进行了1,000,000步的预训练，最大序列长度为512，批量大小为512。在这种设置下，仅在MLM上进行预训练大约需要3天。此外，该模型还在第二个任务（表格蕴含）上进行了进一步的预训练。更多详细信息请参阅原始TAPAS 论文和后续论文。

使用的优化器是Adam，学习率为5e - 5，热身比例为0.01。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and PaweÅ‚ Krzysztof Nowak and Thomas MÃ¼ller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas MÃ¼ller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}