開源Tapex-large-sql-execution模型 - 助力表格推理任務，免費部署超實用！

首頁

Tapex Large Sql Execution

由microsoft開發

TAPEX是一種通過神經SQL執行器學習實現表格預訓練的模型，基於BART架構，專為表格推理任務設計。

大型語言模型

Transformers

英語開源協議:MIT #表格問答 #SQL執行模擬 #表格推理

下載量 68

發布時間 : 3/10/2022

模型概述

TAPEX通過在一個合成語料庫上學習神經SQL執行器來實現表格預訓練，該語料庫通過自動合成可執行的SQL查詢獲得。主要用於表格問答和表格事實驗證任務。

模型特點

神經SQL執行

能夠模擬神經SQL執行，即在給定表格上執行SQL查詢。

表格預訓練

通過執行SQL查詢進行表格預訓練，提升表格推理能力。

基於BART架構

採用BART的Transformer編碼器-解碼器結構，結合雙向編碼和自迴歸解碼優勢。

模型能力

表格問答

表格事實驗證

SQL查詢執行

使用案例

數據查詢

表格數據查詢

在結構化表格數據上執行SQL查詢，獲取特定信息。

能夠準確返回查詢結果，如示例中的年份查詢。

數據分析

表格數據分析

對錶格數據進行復雜分析和推理。

🚀 TAPEX（大型模型）

TAPEX是一種預訓練方法，可賦予現有模型“表格推理”能力，通過學習神經SQL執行器實現表格預訓練，在表格問答和事實驗證等任務中表現出色。

🚀 快速開始

TAPEX由Qian Liu、Bei Chen、Jiaqi Guo、Morteza Ziyadi、Zeqi Lin、Weizhu Chen、Jian - Guang Lou在論文 TAPEX: Table Pre-training via Learning a Neural SQL Executor 中提出。原始代碼倉庫可在此處找到。

✨ 主要特性

模型描述

TAPEX（Table Pre - training via Execution）是一種概念簡單且經驗證效果顯著的預訓練方法，能讓現有模型具備表格推理能力。TAPEX通過在一個合成語料庫上學習神經SQL執行器來實現表格預訓練，該語料庫是通過自動合成可執行的SQL查詢獲得的。

TAPEX基於BART架構，這是一種Transformer編碼器 - 解碼器（seq2seq）模型，具有雙向（類似BERT）編碼器和自迴歸（類似GPT）解碼器。

預期用途

你可以使用原始模型來模擬神經SQL執行，即使用TAPEX在給定表格上執行SQL查詢。不過，該模型主要用於在有監督的數據集上進行微調。目前，TAPEX可以進行微調以處理表格問答任務和表格事實驗證任務。可以在模型中心中查找針對你感興趣的任務進行微調後的版本。

📦 安裝指南

暫未提及安裝相關內容。

💻 使用示例

基礎用法

以下是如何在transformers庫中使用該模型的示例：

from transformers import TapexTokenizer, BartForConditionalGeneration
import pandas as pd

tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-large-sql-execution")
model = BartForConditionalGeneration.from_pretrained("microsoft/tapex-large-sql-execution")

data = {
    "year": [1896, 1900, 1904, 2004, 2008, 2012],
    "city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)

# tapex accepts uncased input since it is pre-trained on the uncased corpus
query = "select year where city = beijing"
encoding = tokenizer(table=table, query=query, return_tensors="pt")

outputs = model.generate(**encoding)

print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
# ['2008']

微調說明

⚠️ 重要提示

此模型檢查點僅用於模擬神經SQL執行（即使用TAPEX在給定表格上執行SQL查詢），你不能使用此模型在下游任務上進行微調。可用於微調的模型在此處。

💡 使用建議

這種將兩種用途的模型分開的做法是由於BART large存在已知問題，建議讀者查看此評論以獲取更多詳細信息。

📚 詳細文檔

暫未提及詳細文檔相關內容。

🔧 技術細節

暫未提及技術細節相關內容。

📄 許可證

本項目採用MIT許可證。

BibTeX引用

@inproceedings{
    liu2022tapex,
    title={{TAPEX}: Table Pre-training via Learning a Neural {SQL} Executor},
    author={Qian Liu and Bei Chen and Jiaqi Guo and Morteza Ziyadi and Zeqi Lin and Weizhu Chen and Jian-Guang Lou},
    booktitle={International Conference on Learning Representations},
    year={2022},
    url={https://openreview.net/forum?id=O50443AsCP}
}