🚀 WikiSQL上でのTAPAS中型モデルの監督式ファインチューニング
このモデルには2つのバージョンがあります。デフォルトのバージョンは、元のGitHubリポジトリのtapas_wikisql_sqa_inter_masklm_medium_reset
チェックポイントに対応しています。
このモデルは、マスク言語モデル(MLM)と著者が呼ぶ中間事前学習の追加ステップで事前学習され、その後意味論的質問応答データセット(SQA)とWikiSQLでチェーン型にファインチューニングされています。相対位置埋め込み(つまり、表の各セルで位置インデックスをリセットする)を使用しています。
もう1つの(非デフォルト)バージョンは以下の通りです。
no_reset
:tapas_wikisql_sqa_inter_masklm_medium
(中間事前学習、絶対位置埋め込み)に対応しています。
免責事項:TAPASを公開したチームはこのモデルのモデルカードを作成していません。このモデルカードはHugging Faceチームと貢献者によって作成されています。
✨ 主な機能
モデルの説明
TAPASは、BERTに似たTransformerモデルで、ウィキペディアからの大量の英語データコーパスで自己教師付き方式で事前学習されています。
これは、モデルが元の表と関連するテキストのみで事前学習され、人工的に何らかの形でラベル付けされていないことを意味します(このため、大量の公開データを使用できる)。そして、自動プロセスによってこれらのテキストから入力とラベルを生成します。より正確には、2つの目標で事前学習されています。
- マスク言語モデル(MLM):(扁平化された)表と関連するコンテキストが与えられた場合、モデルは入力の15%の単語をランダムにマスクし、その後、全体の(部分的にマスクされた)シーケンスをモデルに入力します。モデルはその後、マスクされた単語を予測する必要があります。これは、通常は単語を1つずつ処理する従来の再帰型ニューラルネットワーク(RNN)とは異なり、GPTのように内部で未来のトークンをマスクする自己回帰モデルとも異なります。これにより、モデルは表と関連テキストの双方向表現を学習できます。
- 中間事前学習:表の数値推論を促進するために、著者は数百万の文法生成された学習例からなるバランスの取れたデータセットを作成し、モデルを追加で事前学習しました。ここでは、モデルは文が表の内容によって支持されるか反駁されるかを予測(分類)する必要があります。学習例は合成文と反事実文に基づいて作成されています。
このようにして、モデルは表と関連テキストで使用される英語の内部表現を学習し、それを下流タスク(表に関する質問に答える、文が表の内容によって含意されるか反駁されるかを判断するなど)に有用な特徴を抽出するために使用できます。ファインチューニングは、事前学習モデルの上にセル選択ヘッドと集約ヘッドを追加し、その後、これらのランダムに初期化された分類ヘッドをSQAとWikiSQLで基礎モデルと共同で学習することで行われます。
想定される用途と制限
このモデルを使用して、表に関する質問に答えることができます。
コード例については、Hugging FaceウェブサイトのTAPASのドキュメントを参照してください。
📚 ドキュメント
学習プロセス
前処理
テキストはWordPieceを使用して小文字化され、トークン化されます。語彙サイズは30,000です。モデルの入力形式は以下の通りです。
[CLS] 質問 [SEP] 扁平化された表 [SEP]
著者はまず、自動変換スクリプトを使用してWikiSQLデータセットをSQAの形式に変換しました。
ファインチューニング
このモデルは、32個のCloud TPU v3コアで50,000ステップのファインチューニングを行いました。最大シーケンス長は512、バッチサイズは512です。
この設定では、ファインチューニングに約10時間かかります。使用されたオプティマイザはAdamで、学習率は6.17164e - 5、ウォームアップ率は0.1424です。詳細については、論文(表11と表12)を参照してください。
BibTeX引用と引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@article{DBLP:journals/corr/abs-1709-00103,
author = {Victor Zhong and
Caiming Xiong and
Richard Socher},
title = {Seq2SQL: Generating Structured Queries from Natural Language using
Reinforcement Learning},
journal = {CoRR},
volume = {abs/1709.00103},
year = {2017},
url = {http://arxiv.org/abs/1709.00103},
archivePrefix = {arXiv},
eprint = {1709.00103},
timestamp = {Mon, 13 Aug 2018 16:48:41 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1709-00103.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 ライセンス
このモデルはApache - 2.0ライセンスです。
属性 |
詳細 |
モデルタイプ |
WikiSQL上でのTAPAS中型モデルの監督式ファインチューニングバージョン |
学習データ |
WikiSQL、SQA |