Llama-2-7B-instruct-text2sql開源模型 - 免費將自然語言轉成SQL查詢語句

首頁

Llama 2 7B Instruct Text2sql

由support-pvelocity開發

基於70億參數Llama 2微調的文本轉SQL模型，可將自然語言問題轉化為SQL查詢語句

大型語言模型

Transformers

英語#文本轉SQL #數據庫問答 #7B參數微調

下載量 49

發布時間 : 11/7/2023

模型概述

專為文本轉SQL任務定製的語言模型，根據數據庫模式和自然語言問題生成SQL查詢

模型特點

高效微調

使用LoRA技術對基礎模型進行高效微調，降低訓練成本

SQL生成能力

能夠根據數據庫模式描述和自然語言問題生成準確的SQL查詢

商業用途支持

遵循Llama自定義商業許可，適合商業和研究用途

模型能力

文本轉SQL

代碼生成

指令交互

使用案例

數據庫管理

自然語言查詢轉換

將非技術用戶提出的自然語言問題轉換為SQL查詢

自動生成可執行的SQL語句

數據庫輔助工具

集成到數據庫管理系統中作為智能查詢助手

提升數據庫查詢效率

🚀 Llama-2-7B-instruct-text2sql模型卡

這個模型是基於Llama 2微調而來，擁有70億參數，專門針對文本轉SQL任務進行了優化。它能夠根據數據庫模式和自然語言問題生成相應的SQL查詢。

🚀 快速開始

你可以使用以下代碼片段，藉助Llama-2-7B-instruct-text2sql模型從自然語言問題生成SQL查詢：

pip install -q accelerate==0.24.1 transformers==4.35.0 torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0

import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer
)

model_name = 'support-pvelocity/Llama-2-7B-instruct-text2sql'

model = AutoModelForCausalLM.from_pretrained(model_name, device_map='auto', torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_name)

table = "CREATE TABLE sales ( sale_id number PRIMARY KEY, product_id number, customer_id number, salesperson_id number, sale_date DATE, quantity number, FOREIGN KEY (product_id) REFERENCES products(product_id), FOREIGN KEY (customer_id) REFERENCES customers(customer_id), FOREIGN KEY (salesperson_id) REFERENCES salespeople(salesperson_id)); CREATE TABLE product_suppliers ( supplier_id number PRIMARY KEY, product_id number, supply_price number, FOREIGN KEY (product_id) REFERENCES products(product_id)); CREATE TABLE customers ( customer_id number PRIMARY KEY, name text, address text ); CREATE TABLE salespeople ( salesperson_id number PRIMARY KEY, name text, region text ); CREATE TABLE product_suppliers ( supplier_id number PRIMARY KEY, product_id number, supply_price number );"

question = 'Find the salesperson who made the most sales.'

prompt = f"[INST] Write SQLite query to answer the following question given the database schema. Please wrap your code answer using ```: Schema: {table} Question: {question} [/INST] Here is the SQLite query to answer to the question: {question}: ``` "

tokens = tokenizer(prompt, return_tensors="pt").to('cuda:0')
input_ids = tokens.input_ids

generated_ids = model.generate(input_ids=input_ids, max_length=4048, pad_token_id=tokenizer.eos_token_id)
output = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
output = output.split('```')[2]
print(output)

此代碼展示瞭如何根據給定的數據庫模式和自然語言問題，利用該模型生成SQL查詢，體現了模型在文本轉SQL任務中輔助生成SQL查詢的能力。

✨ 主要特性

代碼補全。
代碼填充。
指令交互/聊天。

📦 安裝指南

pip install -q accelerate==0.24.1 transformers==4.35.0 torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	meta-llama/Llama-2-7b-chat-hf
參考模型	bugdaryan/Code-Llama-2-13B-instruct-text2sql
微調數據集	bugdaryan/sql-create-context-instruction
訓練時間	在1塊A100 40GB GPU上約8小時

LoRA參數

參數	值
lora_r	64
lora_alpha	16
lora_dropout	0.1

bitsandbytes參數

參數	值
use_4bit	True
bnb_4bit_compute_dtype	float16
bnb_4bit_quant_type	nf4
use_nested_quant	False

訓練參數

參數	值
訓練輪數	1
混合精度訓練 (fp16/bf16)	False
每個GPU的訓練批次大小	32
每個GPU的評估批次大小	4
梯度累積步數	1
梯度檢查點	True
最大梯度範數 (梯度裁剪)	0.3
初始學習率	2e-4
權重衰減	0.001
優化器	paged_adamw_32bit
學習率調度器類型	cosine
最大步數	-1
熱身比例	0.03
按長度分組序列	True
每X個更新步驟保存檢查點	0
每X個更新步驟記錄日誌	25