🚀 TAPAS 微型模型
TAPAS 微型模型有 2 個版本可供使用。最新版本(也是默認版本)對應於原始 GitHub 倉庫中的 tapas_inter_masklm_tiny_reset
檢查點。該模型在 MLM 任務和作者所稱的中間預訓練步驟上進行了預訓練,默認使用相對位置嵌入(即在表格的每個單元格處重置位置索引)。另一個(非默認)版本使用絕對位置嵌入,即 revision="no_reset"
,對應於 tapas_inter_masklm_tiny
。
需注意,發佈 TAPAS 的團隊並未為此模型編寫模型卡片,此模型卡片由 Hugging Face 團隊及貢獻者編寫。
🚀 快速開始
本模型有兩個可用版本,默認版本對應 tapas_inter_masklm_tiny_reset
檢查點,另一個非默認版本使用絕對位置嵌入,對應 tapas_inter_masklm_tiny
。
✨ 主要特性
- 有兩個版本可供使用,分別採用相對位置嵌入和絕對位置嵌入。
- 通過 MLM 和中間預訓練學習英語表格及相關文本的內部表示。
- 可用於下游任務,如問答或序列分類。
📚 詳細文檔
模型描述
TAPAS 是一個類似 BERT 的 Transformer 模型,以自監督方式在來自維基百科的大量英語數據語料庫上進行預訓練。這意味著它僅在原始表格及相關文本上進行預訓練,無需人工進行任何標註(因此可以使用大量公開可用的數據),並通過自動過程從這些文本中生成輸入和標籤。更準確地說,它通過兩個目標進行預訓練:
- 掩碼語言模型(MLM):給定一個(扁平化的)表格和相關上下文,模型隨機掩碼輸入中 15% 的單詞,然後將整個(部分掩碼的)序列輸入模型。模型隨後需要預測被掩碼的單詞。這與通常逐個處理單詞的傳統循環神經網絡(RNN)不同,也與像 GPT 這樣在內部掩碼未來標記的自迴歸模型不同。它允許模型學習表格和相關文本的雙向表示。
- 中間預訓練:為了鼓勵在表格上進行數值推理,作者通過創建數百萬個語法生成的訓練示例的平衡數據集,對模型進行了額外的預訓練。在此過程中,模型必須預測(分類)一個句子是否得到表格內容的支持或反駁。訓練示例基於合成語句以及反事實語句創建。
通過這種方式,模型學習了表格和相關文本中使用的英語語言的內部表示,然後可用於提取對下游任務有用的特徵,如下回答關於表格的問題,或確定一個句子是否得到表格內容的支持或反駁。微調是通過在預訓練模型之上添加一個或多個分類頭,然後在下游任務上與基礎模型一起聯合訓練這些隨機初始化的分類頭來完成的。
預期用途與限制
你可以使用原始模型獲取關於表格 - 問題對的隱藏表示,但它主要用於在下游任務(如問答或序列分類)上進行微調。請查看模型中心,以查找針對你感興趣的任務進行微調的版本。
訓練過程
預處理
文本先轉換為小寫,然後使用 WordPiece 進行分詞,詞彙表大小為 30,000。模型的輸入形式如下:
[CLS] 句子 [SEP] 扁平化表格 [SEP]
預訓練
模型在 32 個 Cloud TPU v3 核心上進行了 1,000,000 步的預訓練,最大序列長度為 512,批次大小為 512。在這種設置下,僅在 MLM 上進行預訓練大約需要 3 天。此外,模型還在第二個任務(表格蘊含)上進行了進一步的預訓練。更多詳細信息請參閱原始 TAPAS 論文和後續論文。
使用的優化器是 Adam,學習率為 5e-5,預熱比例為 0.01。
BibTeX 引用和引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型使用的許可證為 Apache-2.0。