🚀 TAPAS微型模型在WikiTable Questions (WTQ) 上微調
該模型有兩個可用版本。默認版本對應於原始GitHub倉庫中的 tapas_wtq_wikisql_sqa_inter_masklm_tiny_reset
檢查點。
此模型在MLM和作者稱為中間預訓練的額外步驟上進行了預訓練,然後在 SQA、WikiSQL 上進行鏈式微調,最後在 WTQ 上微調。它使用相對位置嵌入(即在表格的每個單元格處重置位置索引)。
另一個(非默認)可用版本是:
no_reset
,對應於 tapas_wtq_wikisql_sqa_inter_masklm_tiny
(中間預訓練,絕對位置嵌入)。
免責聲明:發佈TAPAS的團隊沒有為此模型編寫模型卡片,因此此模型卡片由Hugging Face團隊和貢獻者編寫。
🚀 快速開始
你可以使用此模型回答與表格相關的問題。代碼示例請參考Hugging Face網站上TAPAS的文檔。
✨ 主要特性
- 基於自監督學習,在大量英文維基百科數據上預訓練,學習表格和相關文本的內部表示。
- 經過中間預訓練,鼓勵在表格上進行數值推理。
- 可通過微調用於下游任務,如表格問答。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
結果
模型描述
TAPAS是一個類似BERT的Transformer模型,以自監督方式在大量英文維基百科數據語料庫上進行預訓練。
這意味著它僅在原始表格和相關文本上進行預訓練,沒有人工進行任何標註(這就是為什麼它可以使用大量公開可用數據),並通過自動過程從這些文本中生成輸入和標籤。更準確地說,它以兩個目標進行預訓練:
- 掩碼語言模型(MLM):給定一個(扁平化的)表格和相關上下文,模型隨機掩碼輸入中15%的單詞,然後將整個(部分掩碼的)序列輸入模型。模型必須預測被掩碼的單詞。這與通常逐個處理單詞的傳統循環神經網絡(RNN)不同,也與像GPT這樣內部掩碼未來標記的自迴歸模型不同。它允許模型學習表格和相關文本的雙向表示。
- 中間預訓練:為了鼓勵在表格上進行數值推理,作者通過創建數百萬個語法生成的訓練示例的平衡數據集,額外對模型進行預訓練。在這裡,模型必須預測(分類)一個句子是否由表格內容支持或反駁。訓練示例基於合成語句和反事實語句創建。
通過這種方式,模型學習了表格和相關文本中使用的英語語言的內部表示,然後可用於提取對下游任務有用的特徵,如下回答關於表格的問題,或確定一個句子是否由表格內容蘊含或反駁。微調是通過在預訓練模型之上添加單元格選擇頭和聚合頭,然後在SQa、WikiSQL和最終的WTQ上聯合訓練這些隨機初始化的分類頭和基礎模型來完成的。
預期用途和侷限性
你可以使用此模型回答與表格相關的問題。
訓練過程
預處理
文本使用WordPiece進行小寫處理和分詞,詞彙表大小為30,000。模型的輸入形式如下:
[CLS] Question [SEP] Flattened table [SEP]
作者首先使用自動轉換腳本將WTQ數據集轉換為SQA的格式。
微調
模型在32個Cloud TPU v3核心上進行了50,000步的微調,最大序列長度為512,批量大小為512。在這種設置下,微調大約需要10小時。使用的優化器是Adam,學習率為1.93581e - 5,預熱比例為0.128960。添加了歸納偏置,使模型僅選擇同一列的單元格。這反映在 TapasConfig
的 select_one_column
參數中。更多詳細信息請參閱論文(表11和12)。
引用信息
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@article{DBLP:journals/corr/PasupatL15,
author = {Panupong Pasupat and
Percy Liang},
title = {Compositional Semantic Parsing on Semi-Structured Tables},
journal = {CoRR},
volume = {abs/1508.00305},
year = {2015},
url = {http://arxiv.org/abs/1508.00305},
archivePrefix = {arXiv},
eprint = {1508.00305},
timestamp = {Mon, 13 Aug 2018 16:47:37 +0200},
biburl = {https://dblp.org/rec/journals/corr/PasupatL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
🔧 技術細節
文檔中關於技術細節的描述較為詳細,已在上述詳細文檔中體現,故不再單獨列出此章節。
📄 許可證
本模型使用的許可證為 apache-2.0
。