Natural-SQL-7B開源文本轉SQL模型 - 免費部署解析複雜問題生成查詢

首頁

Natural Sql 7b

由chatdb開發

Natural-SQL-7B是由ChatDB.ai開發的文本轉SQL模型，基於Deepseek-coder-6.7b-instruct微調，擅長解析複雜問題生成SQL查詢

大型語言模型

Transformers

#文本轉SQL #複雜查詢解析 #PostgreSQL優化

下載量 663

發布時間 : 2/2/2024

模型概述

該模型專注於將自然語言問題轉換為SQL查詢語句，特別適合處理複雜的數據庫查詢需求，在同規模模型中性能領先

模型特點

複雜問題解析

能夠處理複合型複雜問題，生成準確的SQL查詢

高性能

在SQL-Eval基準測試中表現優於同規模模型

多表關聯支持

擅長處理涉及多表關聯的複雜查詢場景

模型能力

自然語言轉SQL

數據庫查詢生成

複雜問題解析

多表關聯查詢

使用案例

數據庫管理

商業智能分析

將業務分析問題自動轉換為SQL查詢

快速生成分析報表所需SQL

數據探索

幫助非技術人員通過自然語言查詢數據庫

降低數據庫查詢門檻

應用開發

後端開發輔助

自動生成應用所需的數據庫查詢代碼

提高開發效率

🚀 ChatDB的Natural - SQL - 7B模型

Natural - SQL - 7B是一款在文本轉SQL指令方面表現極為出色的模型，它能夠出色地理解複雜問題，在同規模模型中脫穎而出。

ChatDB.ai | Notebook | Twitter

模型圖片

🚀 快速開始

安裝依賴

確保你安裝了正確版本的transformers庫：

pip install transformers==4.35.2

加載模型

使用以下Python代碼加載模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
    "chatdb/natural-sql-7b",
    device_map="auto",
    torch_dtype=torch.float16,
)

生成SQL

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
generated_ids = model.generate(
    **inputs,
    num_return_sequences=1,
    eos_token_id=100001,
    pad_token_id=100001,
    max_new_tokens=400,
    do_sample=False,
    num_beams=1,
)

outputs = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
print(outputs[0].split("```sql")[-1])

✨ 主要特性

在文本轉SQL指令方面表現強勁，能出色理解複雜問題。
可以處理其他模型通常難以應對的複雜複合問題。

📦 安裝指南

安裝正確版本的transformers庫：

pip install transformers==4.35.2

💻 使用示例

基礎用法

加載模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("chatdb/natural-sql-7b")
model = AutoModelForCausalLM.from_pretrained(
    "chatdb/natural-sql-7b",
    device_map="auto",
    torch_dtype=torch.float16,
)

生成SQL

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
generated_ids = model.generate(
    **inputs,
    num_return_sequences=1,
    eos_token_id=100001,
    pad_token_id=100001,
    max_new_tokens=400,
    do_sample=False,
    num_beams=1,
)

outputs = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
print(outputs[0].split("```sql")[-1])

提示模板

# Task 
Generate a SQL query to answer the following question: `{自然語言問題}`

### PostgreSQL Database Schema 
The query will run on a database with the following schema: 

<SQL Table DDL Statements>

# SQL 
Here is the SQL query that answers the question: `{自然語言問題}` 
'''sql

示例SQL輸出

示例模式

CREATE TABLE users (
        user_id SERIAL PRIMARY KEY,
        username VARCHAR(50) NOT NULL,
        email VARCHAR(100) NOT NULL,
        password_hash TEXT NOT NULL,
        created_at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP
    );
CREATE TABLE projects (
    project_id SERIAL PRIMARY KEY,
    project_name VARCHAR(100) NOT NULL,
    description TEXT,
    start_date DATE,
    end_date DATE,
    owner_id INTEGER REFERENCES users(user_id)
);
CREATE TABLE tasks (
    task_id SERIAL PRIMARY KEY,
    task_name VARCHAR(100) NOT NULL,
    description TEXT,
    due_date DATE,
    status VARCHAR(50),
    project_id INTEGER REFERENCES projects(project_id)
);
CREATE TABLE taskassignments (
    assignment_id SERIAL PRIMARY KEY,
    task_id INTEGER REFERENCES tasks(task_id),
    user_id INTEGER REFERENCES users(user_id),
    assigned_date DATE NOT NULL DEFAULT CURRENT_TIMESTAMP
);
CREATE TABLE comments (
    comment_id SERIAL PRIMARY KEY,
    content TEXT NOT NULL,
    created_at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
    task_id INTEGER REFERENCES tasks(task_id),
    user_id INTEGER REFERENCES users(user_id)
);

示例SQL輸出

問題：顯示用戶加入最多的日期

SELECT created_at::DATE AS day, COUNT(*) AS user_count
FROM users
GROUP BY day
ORDER BY user_count DESC
LIMIT 1;

問題：顯示擁有評論最多任務的項目

SELECT p.project_name, t.task_name, COUNT(c.comment_id) AS comment_count
FROM projects p
JOIN tasks t ON p.project_id = t.project_id
JOIN comments c ON t.task_id = c.task_id
GROUP BY p.project_name, t.task_name
ORDER BY comment_count DESC
LIMIT 1;

問題：擁有Gmail郵箱地址的用戶與沒有Gmail郵箱地址的用戶的比例是多少？

SELECT 
    SUM(CASE WHEN email ILIKE '%@gmail.com%' THEN 1 ELSE 0 END)::FLOAT / NULLIF(SUM(CASE WHEN email NOT ILIKE '%@gmail.com%' THEN 1 ELSE 0 END), 0) AS gmail_ratio
FROM 
    users;

📚 詳細文檔

基準測試

未訓練的新數據集上的結果（通過SQL - Eval）

基準測試圖片

非常感謝defog團隊開源了sql - eval👏

Natural - SQL還可以處理其他模型通常難以應對的複雜複合問題。這裡有一個更詳細的報告，一個小測試在這裡。

📄 許可證

模型權重遵循CC BY - SA 4.0許可協議，並在原始模型Deepseek許可協議的基礎上擴展了負責任使用的額外指南。你可以自由使用和修改該模型，甚至用於商業目的。如果你修改了模型權重，例如通過微調，你必須在相同的CC BY - SA 4.0許可協議下公開分享你的更改。

📋 模型信息

屬性	詳情
基礎模型	deepseek - ai/deepseek - coder - 6.7b - instruct
標籤	instruct、finetune
庫名稱	transformers
許可證	cc - by - sa - 4.0
任務類型	文本生成