🚀 TAPAS大型模型在表格事實核查(TabFact)上的微調
本模型可使用的版本有兩個。最新版本(也是默認版本)對應於原始GitHub倉庫中的 tapas_tabfact_inter_masklm_large_reset
檢查點。
該模型先在MLM和作者所稱的中間預訓練步驟上進行預訓練,然後在TabFact上進行微調。默認情況下,它使用相對位置嵌入(即在表格的每個單元格處重置位置索引)。
另一個(非默認)可使用的版本是使用絕對位置嵌入的版本:
no_reset
,對應於 tapas_tabfact_inter_masklm_large
免責聲明:發佈TAPAS的團隊並未為該模型撰寫模型卡片,此模型卡片由Hugging Face團隊及貢獻者撰寫。
✨ 主要特性
- 有兩個可使用版本,默認版本使用相對位置嵌入,非默認版本使用絕對位置嵌入。
- 經過預訓練和微調,可用於表格事實核查任務。
🚀 快速開始
此模型可用於分類判斷一個句子是否得到表格內容的支持或反駁。關於代碼示例,請參考Hugging Face網站上TAPAS的文檔。
📚 詳細文檔
模型描述
TAPAS是一個類似BERT的Transformer模型,以自監督的方式在來自維基百科的大量英文數據語料庫上進行預訓練。這意味著它僅在原始表格和相關文本上進行預訓練,沒有人工進行任何標註(這就是它可以使用大量公開可用數據的原因),並通過自動流程從這些文本中生成輸入和標籤。更確切地說,它通過兩個目標進行預訓練:
- 掩碼語言模型(MLM):給定一個(扁平化的)表格和相關上下文,模型隨機掩碼輸入中15%的單詞,然後將整個(部分掩碼的)序列輸入模型。接著,模型需要預測被掩碼的單詞。這與傳統的循環神經網絡(RNN)不同,RNN通常逐個處理單詞,也與像GPT這樣的自迴歸模型不同,自迴歸模型會在內部掩碼未來的標記。這使得模型能夠學習表格和相關文本的雙向表示。
- 中間預訓練:為了鼓勵在表格上進行數值推理,作者額外通過創建一個包含數百萬個語法生成的訓練示例的平衡數據集來預訓練模型。在這裡,模型必須預測(分類)一個句子是否得到表格內容的支持或反駁。訓練示例基於合成語句和反事實語句創建。
通過這種方式,模型學習到表格和相關文本中使用的英語的內部表示,然後可用於提取對下游任務有用的特徵,如下回答關於表格的問題,或確定一個句子是否被表格內容所蘊含或反駁。微調是通過在預訓練模型之上添加一個分類頭,然後在TabFact上聯合訓練這個隨機初始化的分類頭和基礎模型來完成的。
預期用途和限制
你可以使用此模型來分類判斷一個句子是否得到表格內容的支持或反駁。
訓練過程
預處理
文本先轉換為小寫,然後使用WordPiece進行分詞,詞彙表大小為30,000。模型的輸入形式如下:
[CLS] 句子 [SEP] 扁平化表格 [SEP]
微調
該模型在32個Cloud TPU v3核心上進行了80,000步的微調,最大序列長度為512,批量大小為512。在這種設置下,微調大約需要14小時。使用的優化器是Adam,學習率為2e-5,熱身比例為0.05。更多詳細信息請參閱論文(附錄A2)。
BibTeX引用和引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{2019TabFactA,
title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
booktitle = {International Conference on Learning Representations (ICLR)},
address = {Addis Ababa, Ethiopia},
month = {April},
year = {2020}
}
📄 許可證
本模型使用的許可證為Apache-2.0。
屬性 |
詳情 |
模型類型 |
TAPAS大型模型在表格事實核查(TabFact)上的微調版本 |
訓練數據 |
tab_fact |