t5-base-finetuned-wikiSQLオープンソースモデル - 英語の自然言語クエリを無料でSQL文に変換

ホーム

T5 Base Finetuned Wikisql

mrm8488によって開発

このモデルはGoogleのT5-baseをWikiSQLデータセットでファインチューニングしたバージョンで、英語の自然言語クエリをSQL文に変換するために特別に設計されています。

機械翻訳英語オープンソースライセンス:Apache-2.0 #英語からSQLへの変換 #テキスト間翻訳 #データベースクエリ生成

ダウンロード数 3,728

リリース時間 : 3/2/2022

モデル概要

T5-baseアーキテクチャに基づくテキスト間変換モデルで、WikiSQLデータセットでファインチューニングされており、英語の自然言語質問を対応するSQLクエリ文に翻訳できます。

モデル特徴

テキストからSQLへの変換

自然言語の質問を自動的に実行可能なSQLクエリ文に変換できます

T5アーキテクチャベース

強力なT5テキスト間変換フレームワークを利用し、優れた転移学習能力を備えています

WikiSQLファインチューニング

大規模なWikiSQLデータセットで特別にファインチューニングされており、SQL生成能力が最適化されています

モデル能力

自然言語理解

SQL生成

テキスト変換

使用事例

データベースクエリ

自然言語データベースクエリ

非技術者でも自然言語を使用してデータベースを検索できます

正確なSQL文を生成

教育

SQL学習支援

学生が自然言語がSQL構文にどのようにマッピングされるかを理解するのを支援します

🚀 T5-baseをWikiSQLでファインチューニング

GoogleのT5をWikiSQLでファインチューニングし、英語からSQLへの翻訳を行うモデルです。

🚀 クイックスタート

このモデルは、GoogleのT5をWikiSQLデータセットでファインチューニングして、英語からSQLへの翻訳を行うことができます。以下に使用例を示します。

from transformers import AutoModelWithLMHead, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-wikiSQL")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-wikiSQL")

def get_sql(query):
  input_text = "translate English to SQL: %s </s>" % query
  features = tokenizer([input_text], return_tensors='pt')

  output = model.generate(input_ids=features['input_ids'], 
               attention_mask=features['attention_mask'])
  
  return tokenizer.decode(output[0])

query = "How many models were finetuned using BERT as base model?"

get_sql(query)

# output: 'SELECT COUNT Model fine tuned FROM table WHERE Base model = BERT'

✨ 主な機能

GoogleのT5モデルをWikiSQLデータセットでファインチューニングし、英語からSQLへの翻訳を行うことができます。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

📚 ドキュメント

T5の詳細

T5モデルは、Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. LiuによるExploring the Limits of Transfer Learning with a Unified Text-to-Text Transformerで発表されました。以下はその概要です。

転移学習は、モデルがまずデータが豊富なタスクで事前学習され、その後下流のタスクでファインチューニングされる手法であり、自然言語処理（NLP）において強力な技術として浮上しています。転移学習の有効性により、様々なアプローチ、方法論、実践が生まれています。この論文では、すべての言語問題をテキストからテキストへの形式に変換する統一的なフレームワークを導入することで、NLPの転移学習技術の領域を探索します。我々の体系的な研究では、数十の言語理解タスクにおいて、事前学習の目的、アーキテクチャ、ラベルなしデータセット、転移アプローチ、その他の要素を比較します。我々の探索から得られた洞察と規模、そして新しい「Colossal Clean Crawled Corpus」を組み合わせることで、要約、質問応答、テキスト分類などの多くのベンチマークで最先端の結果を達成します。NLPの転移学習に関する将来の研究を促進するために、我々はデータセット、事前学習モデル、コードを公開します。

モデル画像

データセットの詳細 📚

データセットID: wikisql Huggingface/NLPから取得可能

データセット	分割	サンプル数
wikisql	トレーニング	56355
wikisql	検証	14436

nlpからデータセットをロードする方法

train_dataset  = nlp.load_dataset('wikisql', split=nlp.Split.TRAIN)
valid_dataset = nlp.load_dataset('wikisql', split=nlp.Split.VALIDATION)

このデータセットや他のデータセットの詳細については、NLP Viewerを参照してください。

モデルのファインチューニング 🏋️‍

トレーニングスクリプトは、Suraj Patilによって作成されたthis Colab Notebookを少し改変したものです。彼にすべての功績を捧げます！

モデルの動作例 🚀

上記の「クイックスタート」セクションを参照してください。

検証データセットの他の例

検証例

Created by Manuel Romero/@mrm8488 | LinkedIn

Made with ♥ in Spain

📄 ライセンス

このプロジェクトは、Apache License 2.0の下でライセンスされています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご