開源tapex-large-finetuned-wtq模型 - 專為表格推理任務提供高效解決方案

首頁

Tapex Large Finetuned Wtq

由microsoft開發

TAPEX是一種通過神經SQL執行器學習的表格預訓練模型，基於BART架構，專為表格推理任務設計。

問答系統

Transformers

英語開源協議:MIT #表格推理 #SQL執行預訓練 #複雜問答

下載量 2,431

發布時間 : 3/10/2022

模型概述

TAPEX通過在一個合成語料庫上學習神經SQL執行器來實現表格預訓練，旨在為現有模型賦予表格推理能力。

模型特點

表格預訓練

通過神經SQL執行器學習，賦予模型強大的表格推理能力。

基於BART架構

結合了雙向編碼器和自迴歸解碼器的優勢，適合序列到序列任務。

複雜問題解答

能夠處理涉及表格數據的複雜查詢和推理問題。

模型能力

表格問答

表格推理

複雜查詢處理

使用案例

數據查詢

表格數據問答

回答關於表格數據的複雜問題，如比較、計算和查找特定信息。

能夠準確回答如'北京在哪一年舉辦了奧運會？'等問題

🚀 TAPEX（大型模型）

TAPEX是一種預訓練方法，通過學習神經SQL執行器，賦予現有模型“表格推理”能力，在表格問答等任務中表現出色。

✨ 主要特性

表格推理能力：通過學習神經SQL執行器，讓模型具備強大的表格推理技能。
基於BART架構：採用Transformer的編碼器 - 解碼器（seq2seq）模型，結合雙向（類似BERT）編碼器和自迴歸（類似GPT）解碼器。

📦 安裝指南

文檔未提及具體安裝步驟，可參考原項目倉庫 here 進行安裝。

💻 使用示例

基礎用法

from transformers import TapexTokenizer, BartForConditionalGeneration
import pandas as pd

tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-large-finetuned-wtq")
model = BartForConditionalGeneration.from_pretrained("microsoft/tapex-large-finetuned-wtq")

data = {
    "year": [1896, 1900, 1904, 2004, 2008, 2012],
    "city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)

# tapex accepts uncased input since it is pre-trained on the uncased corpus
query = "In which year did beijing host the Olympic Games?"
encoding = tokenizer(table=table, query=query, return_tensors="pt")

outputs = model.generate(**encoding)

print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# [' 2008.0']

📚 詳細文檔

模型描述

TAPEX（通過執行進行表格預訓練）是一種概念簡單且經驗證有效的預訓練方法，旨在賦予現有模型“表格推理”技能。TAPEX通過在一個合成語料庫上學習神經SQL執行器來實現表格預訓練，該語料庫是通過自動合成可執行的SQL查詢獲得的。

TAPEX基於BART架構，這是一種Transformer的編碼器 - 解碼器（seq2seq）模型，具有雙向（類似BERT）編碼器和自迴歸（類似GPT）解碼器。

此模型是在 WikiTableQuestions 數據集上微調的 tapex-base 模型。

預期用途

你可以使用該模型進行復雜問題的表格問答。以下是一些可以解決的問題示例（對應表格未顯示）：

問題	答案
根據表格，Spicy Horse製作的最後一個遊戲標題是什麼？	Akaneiro: Demon Hunters
Coleraine Academical Institution和Royal School Dungannon的亞軍差距是多少？	20
Greenstreet出演的第一部和最後一部電影是什麼？	The Maltese Falcon, Malaya
Arasay Thondike在哪屆奧運會中未進入前20名？	2012
哪個廣播公司主辦了3個節目，但每個節目只有1集？	Channel 4

評估方法

請在這裡查找評估腳本。

引用信息

@inproceedings{
    liu2022tapex,
    title={{TAPEX}: Table Pre-training via Learning a Neural {SQL} Executor},
    author={Qian Liu and Bei Chen and Jiaqi Guo and Morteza Ziyadi and Zeqi Lin and Weizhu Chen and Jian-Guang Lou},
    booktitle={International Conference on Learning Representations},
    year={2022},
    url={https://openreview.net/forum?id=O50443AsCP}
}