🚀 tscholak/cxmefzzi
PICARD - Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models を T5-3B ベースでファインチューニングした重みです。このモデルは、自然言語の質問からSQLクエリを生成するtext-to-SQLタスクに特化しており、未知のSQLデータベースにも汎化できます。
🚀 クイックスタート
このモデルは、自然言語の質問をSQLクエリに変換するために使用できます。以下のセクションでは、モデルの訓練データ、目的、性能、使用方法などについて説明します。
✨ 主な機能
- 自然言語の質問をSQLクエリに変換するtext-to-SQLタスクを解くことができます。
- 未知のSQLデータベースに対しても汎化性能を持ち、zero-shotでのtext-to-SQL翻訳が可能です。
- PICARD制約付きデコーディング方法を使用することで、性能を向上させることができます。
📦 インストール
このモデルの評価やサービングをサポートするスクリプトやDockerイメージについては、公式リポジトリを参照してください。
💻 使用例
基本的な使用法
モデルの入力は、ユーザーの自然言語の質問、データベース識別子、テーブルとその列のリストで構成されます。
[question] | [db_id] | [table] : [column] ( [content] , [content] ) , [column] ( ... ) , [...] | [table] : ... | ...
モデルの出力は、データベース識別子と、ユーザーの質問に答えるためにデータベースで実行されるSQLクエリです。
[db_id] | [sql]
高度な使用法
PICARD制約付きデコーディング方法を使用することで、モデルの性能を向上させることができます。詳細については、公式のPICARD実装を参照してください。
📚 ドキュメント
訓練データ
このモデルは、Spider text-to-SQLデータセットの7000個の訓練例でファインチューニングされています。モデルはSpiderのzero-shot text-to-SQL翻訳タスクを解くことができ、未知のSQLデータベースに対しても汎化できます。
訓練目的
このモデルは、T5-3Bで初期化され、text-to-text生成目的でファインチューニングされました。質問は常にデータベーススキーマに基づいており、モデルは質問に答えるために使用されるSQLクエリを予測するように訓練されています。
性能
このモデルは、Spider開発セットで71.5%の正確な集合一致精度と74.4%の実行精度を達成しています。テストセットでは、68.0%の正確な集合一致精度と70.1%の実行精度を達成しています。PICARD制約付きデコーディング方法を使用することで、Spider開発セットでの正確な集合一致精度を75.5%、実行精度を79.3%に向上させることができます。テストセットでは、正確な集合一致精度が71.9%、実行精度が**75.1%**になります。
使用方法
このモデルの評価やサービングをサポートするスクリプトやDockerイメージについては、公式リポジトリを参照してください。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。詳細については、ライセンスファイルを参照してください。
🔗 参考文献
- PICARD - Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models
- Official PICARD code
📖 引用
@inproceedings{Scholak2021:PICARD,
author = {Torsten Scholak and Nathan Schucher and Dzmitry Bahdanau},
title = "{PICARD}: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models",
booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2021",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.emnlp-main.779",
pages = "9895--9901",
}