tapas-large-finetuned-tabfact開源表格處理模型 - 驗證句子與表格內容的支持關係

首頁

Tapas Large Finetuned Tabfact

由google開發

TAPAS是一個基於BERT的Transformer模型，專門用於處理表格數據，通過自監督學習在維基百科英文表格上預訓練，並在TabFact數據集上微調，用於驗證句子是否被表格內容支持或反駁。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #表格事實核查 #表格語義理解 #數值推理增強

下載量 3,806

發布時間 : 3/2/2022

模型概述

該模型主要用於表格內容的事實核查，能夠判斷給定句子是否被表格數據支持或反駁。它結合了掩碼語言建模和中間預訓練技術，特別擅長處理表格數據的數值推理任務。

模型特點

表格感知預訓練

通過專門設計的預訓練目標(MLM和中間預訓練)使模型理解表格結構和內容

相對位置嵌入

默認版本使用相對位置嵌入，在表格每個單元格重置位置索引，更好地處理表格結構

數值推理能力

通過中間預訓練階段特別增強了處理表格中數值數據的能力

模型能力

表格內容理解

事實核查

表格數據推理

文本-表格匹配驗證

使用案例

事實核查

表格內容驗證

驗證自然語言陳述是否被表格數據支持

在TabFact數據集上表現良好

數據分析

自動報表驗證

自動檢查報告中的陳述是否與基礎數據表一致

🚀 TAPAS大型模型在表格事實核查（TabFact）上的微調

本模型可使用的版本有兩個。最新版本（也是默認版本）對應於原始GitHub倉庫中的 tapas_tabfact_inter_masklm_large_reset 檢查點。該模型先在MLM和作者所稱的中間預訓練步驟上進行預訓練，然後在TabFact上進行微調。默認情況下，它使用相對位置嵌入（即在表格的每個單元格處重置位置索引）。

另一個（非默認）可使用的版本是使用絕對位置嵌入的版本：

no_reset，對應於 tapas_tabfact_inter_masklm_large

免責聲明：發佈TAPAS的團隊並未為該模型撰寫模型卡片，此模型卡片由Hugging Face團隊及貢獻者撰寫。

✨ 主要特性

有兩個可使用版本，默認版本使用相對位置嵌入，非默認版本使用絕對位置嵌入。
經過預訓練和微調，可用於表格事實核查任務。

🚀 快速開始

此模型可用於分類判斷一個句子是否得到表格內容的支持或反駁。關於代碼示例，請參考Hugging Face網站上TAPAS的文檔。

📚 詳細文檔

模型描述

TAPAS是一個類似BERT的Transformer模型，以自監督的方式在來自維基百科的大量英文數據語料庫上進行預訓練。這意味著它僅在原始表格和相關文本上進行預訓練，沒有人工進行任何標註（這就是它可以使用大量公開可用數據的原因），並通過自動流程從這些文本中生成輸入和標籤。更確切地說，它通過兩個目標進行預訓練：

掩碼語言模型（MLM）：給定一個（扁平化的）表格和相關上下文，模型隨機掩碼輸入中15%的單詞，然後將整個（部分掩碼的）序列輸入模型。接著，模型需要預測被掩碼的單詞。這與傳統的循環神經網絡（RNN）不同，RNN通常逐個處理單詞，也與像GPT這樣的自迴歸模型不同，自迴歸模型會在內部掩碼未來的標記。這使得模型能夠學習表格和相關文本的雙向表示。
中間預訓練：為了鼓勵在表格上進行數值推理，作者額外通過創建一個包含數百萬個語法生成的訓練示例的平衡數據集來預訓練模型。在這裡，模型必須預測（分類）一個句子是否得到表格內容的支持或反駁。訓練示例基於合成語句和反事實語句創建。

通過這種方式，模型學習到表格和相關文本中使用的英語的內部表示，然後可用於提取對下游任務有用的特徵，如下回答關於表格的問題，或確定一個句子是否被表格內容所蘊含或反駁。微調是通過在預訓練模型之上添加一個分類頭，然後在TabFact上聯合訓練這個隨機初始化的分類頭和基礎模型來完成的。

預期用途和限制

你可以使用此模型來分類判斷一個句子是否得到表格內容的支持或反駁。

訓練過程

預處理

文本先轉換為小寫，然後使用WordPiece進行分詞，詞彙表大小為30,000。模型的輸入形式如下：

[CLS] 句子 [SEP] 扁平化表格 [SEP]

微調

該模型在32個Cloud TPU v3核心上進行了80,000步的微調，最大序列長度為512，批量大小為512。在這種設置下，微調大約需要14小時。使用的優化器是Adam，學習率為2e-5，熱身比例為0.05。更多詳細信息請參閱論文（附錄A2）。

BibTeX引用和引用信息

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@inproceedings{2019TabFactA,
  title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
  author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
  booktitle = {International Conference on Learning Representations (ICLR)},
  address = {Addis Ababa, Ethiopia},
  month = {April},
  year = {2020}
}