DuckDB-NSQL-7B-v0.1开源模型 - 免费助力SQL生成，基于Llama-2微调！

首页

Duckdb NSQL 7B V0.1

由 motherduckdb 开发

专为SQL生成任务设计的自回归开源大型基础模型，基于Llama-2 7B模型微调而成

大型语言模型

Transformers

#DuckDB专用SQL生成 #自然语言转数据库查询 #自回归大模型

下载量 736

发布时间 : 1/24/2024

模型简介

DuckDB-NSQL是基于Meta原版Llama-2 7B模型，经过通用SQL查询数据集预训练后，再通过DuckDB文本-SQL配对数据集微调而成，专为根据表结构和自然语言提示生成SQL而设计。

模型特点

DuckDB专用SQL生成

能够生成包括DuckDB官方扩展语句在内的任何有效SQL，而不仅限于SELECT查询

简写语法支持

特别优化以支持DuckDB的简写语法，提高SQL生成效率

广泛SQL能力

支持从基础表创建到复杂查询的多种SQL操作

模型能力

SQL生成

表创建

数据查询

复杂条件过滤

时间范围查询

使用案例

数据库管理

从CSV创建表

根据CSV文件自动生成表创建SQL

快速建立数据库表结构

复杂条件查询

根据自然语言描述生成复杂查询条件

简化数据分析流程

数据分析

时间范围分析

自动生成特定时间范围的数据查询

快速获取时间序列分析结果

列筛选

根据列名模式自动生成筛选查询

高效提取特定数据列

🚀 DuckDB-NSQL-7B

NSQL是专门为SQL生成任务设计的自回归开源大型基础模型（FMs）家族。本项目引入了NSQL的新成员DuckDB-NSQL，它基于Meta的原始 Llama-2 7B模型，在通用SQL查询数据集上进行预训练，然后在由DuckDB文本到SQL对组成的数据集上进行微调。

🚀 快速开始

模型推理参数

属性	详情
推理参数	`do_sample: false`，`max_length: 200`
基础模型	meta-llama/Llama-2-7b

示例

示例标题：read test.csv
- 指令：你的任务是生成有效的DuckDB SQL来回答以下问题。
- 问题：create a new table called tmp from test.csv
- 响应（尽可能使用DuckDB简写）：无具体响应内容
示例标题：get _amount columns
- 指令：你的任务是生成有效的DuckDB SQL来回答以下问题。
- 问题：create a new table called tmp from test.csv
- 响应（尽可能使用DuckDB简写）：无具体响应内容

示例标题：taxi trips

指令：给定DuckDB数据库模式，你的任务是生成有效的DuckDB SQL来回答以下问题。

数据库模式：

CREATE TABLE rideshare (
    hvfhs_license_num varchar,
    dispatching_base_num varchar,
    originating_base_num varchar,
    request_datetime timestamp,
    on_scene_datetime timestamp,
    pickup_datetime timestamp,
    dropoff_datetime timestamp,
    trip_miles double,
    trip_time bigint
);

问题：get longest trip in december 2022
响应（尽可能使用DuckDB简写）：无具体响应内容

✨ 主要特性

NSQL专为SQL生成任务设计，DuckDB-NSQL基于Llama-2 7B模型，在通用SQL查询数据集和DuckDB文本到SQL对数据集上进行训练，能够生成任何有效的DuckDB SQL语句，包括官方DuckDB扩展的语句。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1")
model = AutoModelForCausalLM.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1", torch_dtype=torch.bfloat16)

text = """### Instruction:
Your task is to generate valid duckdb SQL to answer the following question.

### Input:

### Question:
create a new table called tmp from test.csv

### Response (use duckdb shorthand if possible):
"""

input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=500)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

高级用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1")
model = AutoModelForCausalLM.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1", torch_dtype=torch.bfloat16)

text = """### Instruction:
Your task is to generate valid duckdb SQL to answer the following question, given a duckdb database schema.

### Input:
Here is the database schema that the SQL query will run on:
CREATE TABLE taxi (
    VendorID bigint,
    tpep_pickup_datetime timestamp,
    tpep_dropoff_datetime timestamp,
    passenger_count double,
    trip_distance double,
    fare_amount double,
    extra double,
    tip_amount double,
    tolls_amount double,
    improvement_surcharge double,
    total_amount double,
);

### Question:
get all columns ending with _amount from taxi table

### Response (use duckdb shorthand if possible):"""

input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=500)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1")
model = AutoModelForCausalLM.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1", torch_dtype=torch.bfloat16)

text = """### Instruction:
Your task is to generate valid duckdb SQL to answer the following question, given a duckdb database schema.

### Input:
Here is the database schema that the SQL query will run on:
CREATE TABLE rideshare (
    hvfhs_license_num varchar,
    dispatching_base_num varchar,
    originating_base_num varchar,
    request_datetime timestamp,
    on_scene_datetime timestamp,
    pickup_datetime timestamp,
    dropoff_datetime timestamp,
    trip_miles double,
    trip_time bigint,

);

### Question:
get longest trip in december 2022

### Response (use duckdb shorthand if possible):
"""

input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=500)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))