sql-millennials-13bオープンソーステキスト→SQLモデル - 自然言語を効率的にSQLクエリに変換

ホーム

Sql Millennials 13b

budecosystemによって開発

CodeLLaMa 13Bアーキテクチャを基に最適化されたテキストからSQLへのモデル。10万件のSQL生成命令で微調整され、自然言語からSQLクエリへの効率的な変換を実現

大規模言語モデル

Transformers

英語#テキストからSQLへ #自然言語データベースインタラクション #企業自動化クエリ

ダウンロード数 136

リリース時間 : 10/27/2023

モデル概要

テキストからSQLタスクに特化して最適化された言語モデル。自然言語命令を効率的に正確なSQLクエリ文に変換

モデル特徴

専門変換能力

自然言語テキストを正確に実行可能なSQLクエリ文に変換する能力に優れる

膨大な訓練データ

10万件の多様なSQL生成命令に基づく微調整訓練

プラグアンドプレイ統合

Hugging Faceライブラリを介した迅速なロードをサポートし、リアルタイムSQL生成を実現

産業レベルの訓練設定

4台のA100 80GB GPUを使用した55時間の専門訓練を完了

モデル能力

自然言語理解

SQL文生成

データベースクエリ変換

命令追従

使用事例

企業自動化

非技術者向けデータクエリ

企業従業員が自然言語命令で直接データベース情報を取得

IT依存を低減し、意思決定効率を向上

データ分析

アナリスト効率ツール

分析要求を自動的にSQLクエリに変換

構文学習コストを削減し、データ取得を加速

コンテンツ管理

CMSシステム強化

管理者が自然言語で複雑なデータベースコンテンツを検索

システムの使いやすさと管理効率を向上

🚀 テキストからSQLへの翻訳モデル - Millennialsの紹介 🎉

このリポジトリは、テキストからSQLへの翻訳モデルに関するものです。当モデルは、テキストからSQLへの翻訳タスクに特化して微調整されており、自然言語の指示をSQLクエリに変換するシステムを革新することを目指しています。CodeLLaMa 13Bをベースに、10万件のSQLクエリ生成指示を含む精選されたデータセットで細心の注意を払って微調整されており、品質と精度が保証されています。

✨ 主な機能

自然言語のテキストをSQLクエリに変換することに特化。
10万件の多様なSQLクエリ生成指示で微調整。
即座にSQLクエリを生成するために簡単に統合して使用できる。

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("budecosystem/sql-millennials-13b")
model = AutoModelForCausalLM.from_pretrained("budecosystem/sql-millennials-13b")

prompt = "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
USER: Create SQL query for the given table schema and question ASSISTANT:"

inputs = tokenizer(prompt, return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))

このスクリプトは、Hugging Faceモデルハブの事前学習済みモデルを使用して推論を実行し、生成されたSQLクエリを出力します。

📚 詳細ドキュメント

トレーニングの詳細

このモデルは、4台のA100 80GB GPUを使用して約55時間トレーニングされました。

ハイパーパラメータ	値
per_device_train_batch_size	4
gradient_accumulation_steps	1
epoch	3
steps	19206
learning_rate	2e-5
lr schedular type	cosine
warmup steps	2000
optimizer	adamw
fp16	True
GPU	4 A100 80GB

なぜMillennials?

企業向けの自動化データベース管理 シナリオ：中小企業（SME）は、データベースクエリを処理するための専用のITチームを持たないことが多く、分析や意思決定のために特定のデータを迅速に取得することが困難です。ユースケース：このテキストからSQLへのモデルを企業の内部システムに統合することで、技術的なSQL知識のないスタッフがデータを取得できるようになります。彼らは「前四半期に1万ドル以上の取引のリストを取得する」などの自然言語のリクエストを入力することができ、このモデルを搭載したシステムがこれを対応するSQLクエリに変換してデータを取得します。
データ分析プロセスの自動化 シナリオ：データアナリストやビジネス専門家は、SQLクエリの作成が複雑であるため、洞察を得る際にボトルネックに直面することが多いです。特に即時または繰り返しのデータ取得と分析が必要な場合には、この問題が顕著になります。ユースケース：このテキストからSQLへのモデルは、このシナリオにおいて変革的な仲介役として機能します。モデルをデータ分析システムに統合することで、専門家は自然言語でデータ要求を入力することができます。たとえば、アナリストは「過去5年間のオンライン販売の成長トレンドを表示する」と入力すると、システムはこの要求を即座にSQLクエリに変換し、データを取得し、さらにデータを可視化ツールに統合して即時の洞察を生成します。この機能は、分析プロセスを加速するだけでなく、組織内のさまざまな部門にデータ駆動型の洞察を民主化し、技術的なSQL知識のないスタッフでもリアルタイムのデータ分析の力を活用できるようにします。
CMSインターフェイスの強化 シナリオ：コンテンツ管理システム（CMS）は、複雑なデータ取得やデータベース管理に関して、非技術的なコンテンツ管理者にとって直感的ではないことが多いです。ユースケース：CMSプロバイダは、このモデルを利用してシステムのバックエンドインターフェイスを強化することができます。コンテンツ管理者は、「2023年5月に500回以上の閲覧があったすべてのブログ記事を検索する」などの自然言語で特定のデータを要求することができ、モデルはこれに対応するSQLを生成して情報を取得します。この機能により、データベース管理がよりアクセスしやすく、効率的で、ユーザーフレンドリーになります。
カスタマーサポートの最適化 シナリオ：カスタマーサポートセンターは、チケットや問い合わせを解決する際に、データベースに保存されているクライアントまたは製品情報を取得する必要がありますが、これには基本的なSQL知識が必要です。ユースケース：このモデルをサポートチケットシステムに統合することで、サポート担当者は「今月にニューヨークの顧客から提出されたすべての未処理のチケットを表示する」などの自然言語でリクエストを入力することができ、解決プロセスを迅速化するために必要なデータを即座に受け取ることができます。これにより、カスタマーサービスの効率と応答時間が改善されます。
データジャーナリズムと研究 シナリオ：ジャーナリストや研究者は、仕事に必要な洞察やデータポイントを収集するために複雑なデータベースに依存することが多いですが、SQLの技術的な知識を持っていないことがあります。ユースケース：このテキストからSQLへのモデルを研究ソフトウェアやジャーナリズムツールに統合することで、専門家は自然言語でデータベースをクエリすることができます。たとえば、ジャーナリストは「2022年のテキサス州の平均世帯収入を取得する」と入力すると、このモデルがこのデータへの即時アクセスを容易にし、より効率的な研究とデータ駆動型のストーリーテリングを可能にします。