t5-base-finetuned-wikiSQL开源模型 - 免费将英文自然语言查询转成SQL语句

首页

T5 Base Finetuned Wikisql

由 mrm8488 开发

该模型是谷歌T5-base在WikiSQL数据集上微调的版本，专门用于将英文自然语言查询转换为SQL语句。

机器翻译英语开源协议:Apache-2.0 #英文转SQL #文本到文本翻译 #数据库查询生成

下载量 3,728

发布时间 : 3/2/2022

模型简介

基于T5-base架构的文本到文本转换模型，经过WikiSQL数据集微调，能够将英文自然语言问题翻译成对应的SQL查询语句。

模型特点

文本到SQL转换

能够将自然语言问题自动转换为可执行的SQL查询语句

基于T5架构

利用强大的T5文本到文本转换框架，具有优秀的迁移学习能力

WikiSQL微调

在大型WikiSQL数据集上专门微调，优化了SQL生成能力

模型能力

自然语言理解

SQL生成

文本转换

使用案例

数据库查询

自然语言数据库查询

允许非技术人员使用自然语言查询数据库

生成准确的SQL语句

教育

SQL学习辅助

帮助学生理解自然语言如何映射到SQL语法

🚀 T5-base在WikiSQL上微调

基于Google的T5模型，在WikiSQL数据集上微调，实现从英语到SQL的翻译。

🚀 快速开始

本项目使用基于Google的 T5 模型，在 WikiSQL 数据集上进行微调，以实现从英语到 SQL 的翻译。

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-wikiSQL")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-wikiSQL")

def get_sql(query):
  input_text = "translate English to SQL: %s </s>" % query
  features = tokenizer([input_text], return_tensors='pt')

  output = model.generate(input_ids=features['input_ids'], 
               attention_mask=features['attention_mask'])
  
  return tokenizer.decode(output[0])

query = "How many models were finetuned using BERT as base model?"

get_sql(query)

# 输出: 'SELECT COUNT Model fine tuned FROM table WHERE Base model = BERT'

✨ 主要特性

基于强大的T5模型架构，在WikiSQL数据集上进行微调，实现英语到SQL的准确翻译。
提供了详细的数据集信息和模型微调的相关说明。
给出了模型的使用示例，方便用户快速上手。

📚 详细文档

T5模型详情

T5 模型由 Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 在论文 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 中提出。以下是论文摘要：

迁移学习是一种强大的自然语言处理（NLP）技术，它先在数据丰富的任务上对模型进行预训练，然后在下游任务上进行微调。迁移学习的有效性催生了各种方法、方法论和实践。在本文中，我们通过引入一个统一的框架，将每个语言问题转化为文本到文本的格式，探索了NLP迁移学习技术的领域。我们的系统研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的表现。通过将我们的探索见解与规模和新的“Colossal Clean Crawled Corpus”相结合，我们在许多涵盖摘要、问答、文本分类等的基准测试中取得了最先进的结果。为了促进未来NLP迁移学习的研究，我们发布了我们的数据集、预训练模型和代码。

模型图片

数据集详情 📚

数据集ID：wikisql，来自 Huggingface/NLP

数据集	划分	样本数量
wikisql	训练集	56355
wikisql	验证集	14436

如何从 nlp 加载该数据集

train_dataset  = nlp.load_dataset('wikisql', split=nlp.Split.TRAIN)
valid_dataset = nlp.load_dataset('wikisql', split=nlp.Split.VALIDATION)

在 NLP Viewer 中查看更多关于此数据集和其他数据集的信息。

模型微调 🏋️‍

训练脚本是 Suraj Patil 创建的 Colab Notebook 的略微修改版本，所有功劳归他！

模型应用示例 🚀

验证数据集的其他示例：验证示例

由 Manuel Romero/@mrm8488 创建 | 领英

在西班牙用心打造 ♥

📄 许可证

本项目采用 Apache-2.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库