🚀 泰萨尔(大型模型)
泰萨尔(Tessar)是由SVECTOR开发的先进表格推理模型,它基于开创性研究,突破了神经表格理解的界限,旨在高效解决基于表格的问答问题。
🚀 快速开始
泰萨尔(Textual SQL Analysis and Reasoning)是一款复杂的神经模型,专为在基于表格的问答中表现出色而设计。它实现了一种创新的神经SQL执行器,能够以极高的精度解释和推理复杂的表格数据。
该模型采用BART架构构建,具有双向编码器和自回归解码器。这种设计使泰萨尔能够捕捉表格数据内复杂的上下文关系,并生成准确、与上下文相关的答案。
✨ 主要特性
- 先进的神经SQL执行能力
- 在复杂表格问答方面达到了最先进的性能
- 能够稳健处理细微和多步骤的查询
- 在WikiTableQuestions数据集上进行了微调
📚 详细文档
预期用途
泰萨尔在解决跨多个领域的复杂基于表格的问题方面特别强大。以下是该模型可以有效解决的一些示例问题:
问题 |
示例答案 |
根据表格,最后产生的标题是什么? |
具体标题 |
特定比较指标的差异是多少? |
数值差异 |
在给定上下文中,哪个实体产生了最重大的影响? |
确定的实体 |
特定列中的第一个和最后一个条目是什么? |
比较条目 |
使用方法
以下是一个使用Transformers库使用泰萨尔的完整示例:
from transformers import TessarTokenizer, BartForConditionalGeneration
import pandas as pd
tokenizer = TessarTokenizer.from_pretrained("SVECTOR-CORPORATION/Tessar-largest")
model = BartForConditionalGeneration.from_pretrained("SVECTOR-CORPORATION/Tessar-largest")
data = {
"year": [1896, 1900, 1904, 2004, 2008, 2012],
"city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)
query = "In which year did beijing host the Olympic Games?"
encoding = tokenizer(table=table, query=query, return_tensors="pt")
outputs = model.generate(**encoding)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
评估
有关全面的评估脚本和基准测试,请参考SVECTOR文档和研究仓库。
性能亮点
- 在复杂表格推理任务上具有出色的准确性
- 能够稳健处理多步骤和上下文查询
- 在WikiTableQuestions数据集上达到了最先进的性能
引用
如果您在研究中使用泰萨尔(Tessar)的SVECTOR实现,请使用以下引用:
@inproceedings{svector2025tessar,
title={{Tessar}: Advanced Neural Table Reasoning},
author={{SVECTOR Team}},
year={2025},
institution={SVECTOR Research}
}
联系与支持
如需更多信息、支持或合作机会,请通过research@svector.co.in联系SVECTOR的研究团队。
📄 许可证
该模型根据MIT许可证发布。请在使用前查看许可条款。