Llama-2-7B-instruct-text2sql开源模型 - 免费将自然语言转成SQL查询语句

首页

Llama 2 7B Instruct Text2sql

由 support-pvelocity 开发

基于70亿参数Llama 2微调的文本转SQL模型，可将自然语言问题转化为SQL查询语句

大型语言模型

Transformers

英语#文本转SQL #数据库问答 #7B参数微调

下载量 49

发布时间 : 11/7/2023

模型简介

专为文本转SQL任务定制的语言模型，根据数据库模式和自然语言问题生成SQL查询

模型特点

高效微调

使用LoRA技术对基础模型进行高效微调，降低训练成本

SQL生成能力

能够根据数据库模式描述和自然语言问题生成准确的SQL查询

商业用途支持

遵循Llama自定义商业许可，适合商业和研究用途

模型能力

文本转SQL

代码生成

指令交互

使用案例

数据库管理

自然语言查询转换

将非技术用户提出的自然语言问题转换为SQL查询

自动生成可执行的SQL语句

数据库辅助工具

集成到数据库管理系统中作为智能查询助手

提升数据库查询效率

🚀 Llama-2-7B-instruct-text2sql模型卡

这个模型是基于Llama 2微调而来，拥有70亿参数，专门针对文本转SQL任务进行了优化。它能够根据数据库模式和自然语言问题生成相应的SQL查询。

🚀 快速开始

你可以使用以下代码片段，借助Llama-2-7B-instruct-text2sql模型从自然语言问题生成SQL查询：

pip install -q accelerate==0.24.1 transformers==4.35.0 torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0

import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer
)

model_name = 'support-pvelocity/Llama-2-7B-instruct-text2sql'

model = AutoModelForCausalLM.from_pretrained(model_name, device_map='auto', torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_name)

table = "CREATE TABLE sales ( sale_id number PRIMARY KEY, product_id number, customer_id number, salesperson_id number, sale_date DATE, quantity number, FOREIGN KEY (product_id) REFERENCES products(product_id), FOREIGN KEY (customer_id) REFERENCES customers(customer_id), FOREIGN KEY (salesperson_id) REFERENCES salespeople(salesperson_id)); CREATE TABLE product_suppliers ( supplier_id number PRIMARY KEY, product_id number, supply_price number, FOREIGN KEY (product_id) REFERENCES products(product_id)); CREATE TABLE customers ( customer_id number PRIMARY KEY, name text, address text ); CREATE TABLE salespeople ( salesperson_id number PRIMARY KEY, name text, region text ); CREATE TABLE product_suppliers ( supplier_id number PRIMARY KEY, product_id number, supply_price number );"

question = 'Find the salesperson who made the most sales.'

prompt = f"[INST] Write SQLite query to answer the following question given the database schema. Please wrap your code answer using ```: Schema: {table} Question: {question} [/INST] Here is the SQLite query to answer to the question: {question}: ``` "

tokens = tokenizer(prompt, return_tensors="pt").to('cuda:0')
input_ids = tokens.input_ids

generated_ids = model.generate(input_ids=input_ids, max_length=4048, pad_token_id=tokenizer.eos_token_id)
output = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
output = output.split('```')[2]
print(output)

此代码展示了如何根据给定的数据库模式和自然语言问题，利用该模型生成SQL查询，体现了模型在文本转SQL任务中辅助生成SQL查询的能力。

✨ 主要特性

代码补全。
代码填充。
指令交互/聊天。

📦 安装指南

pip install -q accelerate==0.24.1 transformers==4.35.0 torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0

📚 详细文档

模型信息

属性	详情
基础模型	meta-llama/Llama-2-7b-chat-hf
参考模型	bugdaryan/Code-Llama-2-13B-instruct-text2sql
微调数据集	bugdaryan/sql-create-context-instruction
训练时间	在1块A100 40GB GPU上约8小时

LoRA参数

参数	值
lora_r	64
lora_alpha	16
lora_dropout	0.1

bitsandbytes参数

参数	值
use_4bit	True
bnb_4bit_compute_dtype	float16
bnb_4bit_quant_type	nf4
use_nested_quant	False

训练参数

参数	值
训练轮数	1
混合精度训练 (fp16/bf16)	False
每个GPU的训练批次大小	32
每个GPU的评估批次大小	4
梯度累积步数	1
梯度检查点	True
最大梯度范数 (梯度裁剪)	0.3
初始学习率	2e-4
权重衰减	0.001
优化器	paged_adamw_32bit
学习率调度器类型	cosine
最大步数	-1
热身比例	0.03
按长度分组序列	True
每X个更新步骤保存检查点	0
每X个更新步骤记录日志	25