🚀 T5大語言模型適配文本轉SQL
本模型旨在根據自然語言提示生成結構化的SQL查詢。它通過學習自然語言問題來生成對應的SQL查詢,同時在訓練時將數據庫模式融入輸入問題,使模型能更好地考慮特定數據庫的結構,從而生成適用的SQL查詢。
🚀 快速開始
本模型用於文本轉SQL任務,能夠根據自然語言問題生成對應的SQL查詢。在訓練過程中,我們將數據庫模式信息加入到輸入問題中,讓模型學習模式與預期輸出的映射,從而更好地泛化到訓練數據中未出現的模式。
✨ 主要特性
- 結合數據庫模式:在訓練時將數據庫模式融入輸入問題,使模型能考慮特定數據庫的結構,生成適用的SQL查詢。
- 更好的泛化能力:通過學習模式與預期輸出的映射,模型能更好地泛化到訓練數據中未出現的模式。
📦 安裝指南
文檔未提及安裝步驟,故跳過。
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_path = 'gaussalgo/T5-LM-Large-text2sql-spider'
model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
question = "What is the average, minimum, and maximum age for all French musicians?"
schema = """
"stadium" "Stadium_ID" int , "Location" text , "Name" text , "Capacity" int , "Highest" int , "Lowest" int , "Average" int , foreign_key: primary key: "Stadium_ID" [SEP] "singer" "Singer_ID" int , "Name" text , "Country" text , "Song_Name" text , "Song_release_year" text , "Age" int , "Is_male" bool , foreign_key: primary key: "Singer_ID" [SEP] "concert" "concert_ID" int , "concert_Name" text , "Theme" text , "Year" text , foreign_key: "Stadium_ID" text from "stadium" "Stadium_ID" , primary key: "concert_ID" [SEP] "singer_in_concert" foreign_key: "concert_ID" int from "concert" "concert_ID" , "Singer_ID" text from "singer" "Singer_ID" , primary key: "concert_ID" "Singer_ID"
"""
input_text = " ".join(["Question: ",question, "Schema:", schema])
model_inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**model_inputs, max_length=512)
output_text = tokenizer.batch_decode(outputs, skip_special_tokens=True)
print("SQL Query:")
print(output_text)
輸出:
SQL Query:
SELECT avg(age), min(age), max(age) FROM singer WHERE country = 'France'
📚 詳細文檔
數據集
本模型在Spider和Spider-Syn數據集的訓練分割上進行了微調。在輸入中,除了問題本身,還添加了數據庫模式,以便模型能針對給定數據庫生成查詢。
輸入提示示例:
Question: What is the average, minimum, and maximum age for all French musicians?
Schema: "stadium" "Stadium_ID" int , "Location" text , "Name" text , "Capacity" int , "Highest" int , "Lowest" int ,
"Average" int , foreign_key: primary key: "Stadium_ID" [SEP] "singer" "Singer_ID" int , "Name" text , "Country" text ,
"Song_Name" text , "Song_release_year" text , "Age" int , "Is_male" bool ,
foreign_key: primary key: "Singer_ID" [SEP],
"concert" "concert_ID" int , "concert_Name" text , "Theme" text , "Year" text , foreign_key: "Stadium_ID" text from "stadium",
"Stadium_ID" , primary key: "concert_ID" [SEP] "singer_in_concert",
foreign_key: "concert_ID" int from "concert",
"concert_ID" , "Singer_ID" text from "singer" "Singer_ID" , primary key: "concert_ID" "Singer_ID"
預期輸出示例:
SELECT avg(age), min(age), max(age) FROM singer WHERE country = 'France'
數據庫模式格式
模型訓練使用的標準化數據庫模式格式如下:
table_name column1_name column1_type column2_name column2_type ... foreign_key: FK_name FK_type from table_name column_name primary key: column_name [SEP]
table_name2 ...
評估
評估在Spider和Spider-syn數據集的開發分割上進行。開發分割中的數據庫與訓練分割中的數據庫沒有交集,以確保模型在訓練過程中未接觸到評估的數據庫。評估通過比較使用生成查詢和參考查詢對數據庫進行查詢的結果來進行。Spider和Spider-Syn開發分割均有1032個樣本。
- Spider開發集準確率:49.2%
- Spider Syn開發集準確率:39.5%
訓練
模型使用Adaptor庫 0.2.1在Spider和Spider-syn數據集的訓練分割上進行訓練,參數如下:
training_arguments = AdaptationArguments(output_dir="train_dir",
learning_rate=5e-5,
stopping_strategy=StoppingStrategy.ALL_OBJECTIVES_CONVERGED,
stopping_patience=8,
save_total_limit=8,
do_train=True,
do_eval=True,
bf16=True,
warmup_steps=1000,
gradient_accumulation_steps=8,
logging_steps=10,
eval_steps=200,
save_steps=1000,
num_train_epochs=10,
evaluation_strategy="steps")
訓練過程相對容易復現,但我們不希望發佈其依賴的修改後的Spider數據集副本。如果您想進一步研究,請通過新的PR或發送電子郵件至stefanik(at)gaussalgo.com與我們聯繫。
🔧 技術細節
本模型基於t5-large-LM-adapt檢查點進行微調。在文本轉SQL任務中,模型通常需要根據自然語言問題生成SQL查詢,但有時生成的查詢可能包含未知列等問題,且未考慮特定數據庫的模式。我們的方法是在訓練時將數據庫模式融入輸入問題,讓模型學習模式與預期輸出的映射,從而更好地泛化到訓練數據中未出現的模式。
📄 許可證
文檔未提及許可證信息,故跳過。