🚀 泰薩爾(大型模型)
泰薩爾(Tessar)是由SVECTOR開發的先進表格推理模型,它基於開創性研究,突破了神經表格理解的界限,旨在高效解決基於表格的問答問題。
🚀 快速開始
泰薩爾(Textual SQL Analysis and Reasoning)是一款複雜的神經模型,專為在基於表格的問答中表現出色而設計。它實現了一種創新的神經SQL執行器,能夠以極高的精度解釋和推理複雜的表格數據。
該模型採用BART架構構建,具有雙向編碼器和自迴歸解碼器。這種設計使泰薩爾能夠捕捉表格數據內複雜的上下文關係,並生成準確、與上下文相關的答案。
✨ 主要特性
- 先進的神經SQL執行能力
- 在複雜表格問答方面達到了最先進的性能
- 能夠穩健處理細微和多步驟的查詢
- 在WikiTableQuestions數據集上進行了微調
📚 詳細文檔
預期用途
泰薩爾在解決跨多個領域的複雜基於表格的問題方面特別強大。以下是該模型可以有效解決的一些示例問題:
問題 |
示例答案 |
根據表格,最後產生的標題是什麼? |
具體標題 |
特定比較指標的差異是多少? |
數值差異 |
在給定上下文中,哪個實體產生了最重大的影響? |
確定的實體 |
特定列中的第一個和最後一個條目是什麼? |
比較條目 |
使用方法
以下是一個使用Transformers庫使用泰薩爾的完整示例:
from transformers import TessarTokenizer, BartForConditionalGeneration
import pandas as pd
tokenizer = TessarTokenizer.from_pretrained("SVECTOR-CORPORATION/Tessar-largest")
model = BartForConditionalGeneration.from_pretrained("SVECTOR-CORPORATION/Tessar-largest")
data = {
"year": [1896, 1900, 1904, 2004, 2008, 2012],
"city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)
query = "In which year did beijing host the Olympic Games?"
encoding = tokenizer(table=table, query=query, return_tensors="pt")
outputs = model.generate(**encoding)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
評估
有關全面的評估腳本和基準測試,請參考SVECTOR文檔和研究倉庫。
性能亮點
- 在複雜表格推理任務上具有出色的準確性
- 能夠穩健處理多步驟和上下文查詢
- 在WikiTableQuestions數據集上達到了最先進的性能
引用
如果您在研究中使用泰薩爾(Tessar)的SVECTOR實現,請使用以下引用:
@inproceedings{svector2025tessar,
title={{Tessar}: Advanced Neural Table Reasoning},
author={{SVECTOR Team}},
year={2025},
institution={SVECTOR Research}
}
聯繫與支持
如需更多信息、支持或合作機會,請通過research@svector.co.in聯繫SVECTOR的研究團隊。
📄 許可證
該模型根據MIT許可證發佈。請在使用前查看許可條款。