🚀 TAPAS中型模型
TAPAS中型模型有2個可用版本,能助力表格數據處理和問答任務。最新版本為默認版本,對應原始GitHub倉庫中的tapas_inter_masklm_medium_reset
檢查點。該模型在MLM和作者所稱的中間預訓練上進行了預訓練,默認使用相對位置嵌入。
✨ 主要特性
- 雙版本支持:提供默認的相對位置嵌入版本和非默認的絕對位置嵌入版本(
revision="no_reset"
,對應tapas_inter_masklm_medium
)。
- 自監督預訓練:在大量英文維基百科數據上進行自監督預訓練,通過掩碼語言建模(MLM)和中間預訓練學習表格和相關文本的雙向表示。
- 數值推理能力:通過中間預訓練鼓勵在表格上進行數值推理,能夠預測句子是否被表格內容支持或反駁。
📚 詳細文檔
模型描述
TAPAS是一個類似BERT的Transformer模型,以自監督方式在大量英文維基百科數據語料上進行預訓練。這意味著它僅在原始表格和相關文本上進行預訓練,無需人工標註,通過自動過程從這些文本生成輸入和標籤。具體而言,它通過兩個目標進行預訓練:
- 掩碼語言建模(MLM):模型隨機掩蓋輸入中15%的單詞,然後將整個(部分掩蓋)序列輸入模型,預測被掩蓋的單詞。這與傳統的循環神經網絡(RNN)和自迴歸模型(如GPT)不同,使模型能夠學習表格和相關文本的雙向表示。
- 中間預訓練:為了鼓勵在表格上進行數值推理,作者通過創建數百萬個語法訓練示例的平衡數據集進一步預訓練模型。模型需要預測句子是否被表格內容支持或反駁,訓練示例基於合成和反事實陳述創建。
預期用途和限制
可以使用原始模型獲取表-問題對的隱藏表示,但它主要用於在下游任務(如問答或序列分類)上進行微調。可在模型中心查找感興趣任務的微調版本。
訓練過程
預處理
文本先轉換為小寫,然後使用WordPiece進行分詞,詞彙表大小為30,000。模型的輸入形式為:
[CLS] 句子 [SEP] 扁平化表格 [SEP]
預訓練
模型在32個Cloud TPU v3核心上進行了1,000,000步的預訓練,最大序列長度為512,批次大小為512。在這種設置下,僅進行MLM預訓練大約需要3天。此外,模型還在第二個任務(表格蘊含)上進行了進一步預訓練。更多詳細信息請參閱原始TAPAS 論文和後續論文。
使用的優化器是Adam,學習率為5e-5,預熱比例為0.01。
BibTeX引用和引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型採用Apache-2.0許可證。