DuckDB-NSQL-7B-v0.1開源模型 - 免費助力SQL生成，基於Llama-2微調！

首頁

Duckdb NSQL 7B V0.1

由motherduckdb開發

專為SQL生成任務設計的自迴歸開源大型基礎模型，基於Llama-2 7B模型微調而成

大型語言模型

Transformers

#DuckDB專用SQL生成 #自然語言轉數據庫查詢 #自迴歸大模型

下載量 736

發布時間 : 1/24/2024

模型概述

DuckDB-NSQL是基於Meta原版Llama-2 7B模型，經過通用SQL查詢數據集預訓練後，再通過DuckDB文本-SQL配對數據集微調而成，專為根據表結構和自然語言提示生成SQL而設計。

模型特點

DuckDB專用SQL生成

能夠生成包括DuckDB官方擴展語句在內的任何有效SQL，而不僅限於SELECT查詢

簡寫語法支持

特別優化以支持DuckDB的簡寫語法，提高SQL生成效率

廣泛SQL能力

支持從基礎表創建到複雜查詢的多種SQL操作

模型能力

SQL生成

表創建

數據查詢

複雜條件過濾

時間範圍查詢

使用案例

數據庫管理

從CSV創建表

根據CSV文件自動生成表創建SQL

快速建立數據庫表結構

複雜條件查詢

根據自然語言描述生成複雜查詢條件

簡化數據分析流程

數據分析

時間範圍分析

自動生成特定時間範圍的數據查詢

快速獲取時間序列分析結果

列篩選

根據列名模式自動生成篩選查詢

高效提取特定數據列

🚀 DuckDB-NSQL-7B

NSQL是專門為SQL生成任務設計的自迴歸開源大型基礎模型（FMs）家族。本項目引入了NSQL的新成員DuckDB-NSQL，它基於Meta的原始 Llama-2 7B模型，在通用SQL查詢數據集上進行預訓練，然後在由DuckDB文本到SQL對組成的數據集上進行微調。

🚀 快速開始

模型推理參數

屬性	詳情
推理參數	`do_sample: false`，`max_length: 200`
基礎模型	meta-llama/Llama-2-7b

示例

示例標題：read test.csv
- 指令：你的任務是生成有效的DuckDB SQL來回答以下問題。
- 問題：create a new table called tmp from test.csv
- 響應（儘可能使用DuckDB簡寫）：無具體響應內容
示例標題：get _amount columns
- 指令：你的任務是生成有效的DuckDB SQL來回答以下問題。
- 問題：create a new table called tmp from test.csv
- 響應（儘可能使用DuckDB簡寫）：無具體響應內容

示例標題：taxi trips

指令：給定DuckDB數據庫模式，你的任務是生成有效的DuckDB SQL來回答以下問題。

數據庫模式：

CREATE TABLE rideshare (
    hvfhs_license_num varchar,
    dispatching_base_num varchar,
    originating_base_num varchar,
    request_datetime timestamp,
    on_scene_datetime timestamp,
    pickup_datetime timestamp,
    dropoff_datetime timestamp,
    trip_miles double,
    trip_time bigint
);

問題：get longest trip in december 2022
響應（儘可能使用DuckDB簡寫）：無具體響應內容

✨ 主要特性

NSQL專為SQL生成任務設計，DuckDB-NSQL基於Llama-2 7B模型，在通用SQL查詢數據集和DuckDB文本到SQL對數據集上進行訓練，能夠生成任何有效的DuckDB SQL語句，包括官方DuckDB擴展的語句。

📦 安裝指南

文檔未提供安裝步驟，暫不展示。

💻 使用示例

基礎用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1")
model = AutoModelForCausalLM.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1", torch_dtype=torch.bfloat16)

text = """### Instruction:
Your task is to generate valid duckdb SQL to answer the following question.

### Input:

### Question:
create a new table called tmp from test.csv

### Response (use duckdb shorthand if possible):
"""

input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=500)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

高級用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1")
model = AutoModelForCausalLM.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1", torch_dtype=torch.bfloat16)

text = """### Instruction:
Your task is to generate valid duckdb SQL to answer the following question, given a duckdb database schema.

### Input:
Here is the database schema that the SQL query will run on:
CREATE TABLE taxi (
    VendorID bigint,
    tpep_pickup_datetime timestamp,
    tpep_dropoff_datetime timestamp,
    passenger_count double,
    trip_distance double,
    fare_amount double,
    extra double,
    tip_amount double,
    tolls_amount double,
    improvement_surcharge double,
    total_amount double,
);

### Question:
get all columns ending with _amount from taxi table

### Response (use duckdb shorthand if possible):"""

input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=500)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1")
model = AutoModelForCausalLM.from_pretrained("motherduckdb/DuckDB-NSQL-7B-v0.1", torch_dtype=torch.bfloat16)

text = """### Instruction:
Your task is to generate valid duckdb SQL to answer the following question, given a duckdb database schema.

### Input:
Here is the database schema that the SQL query will run on:
CREATE TABLE rideshare (
    hvfhs_license_num varchar,
    dispatching_base_num varchar,
    originating_base_num varchar,
    request_datetime timestamp,
    on_scene_datetime timestamp,
    pickup_datetime timestamp,
    dropoff_datetime timestamp,
    trip_miles double,
    trip_time bigint,

);

### Question:
get longest trip in december 2022

### Response (use duckdb shorthand if possible):
"""

input_ids = tokenizer(text, return_tensors="pt").input_ids

generated_ids = model.generate(input_ids, max_length=500)
print(tokenizer.decode(generated_ids[0], skip_special_tokens=True))