🚀 逐次質問応答 (SQA) でファインチューニングされたTAPAS小規模モデル
このモデルには2つのバージョンがあり、使用可能です。デフォルトのバージョンは、元のGitHubリポジトリ の tapas_sqa_inter_masklm_small_reset
チェックポイントに対応しています。
このモデルは、MLMと著者らが中間事前学習と呼ぶ追加のステップで事前学習され、その後 SQA でファインチューニングされました。相対位置埋め込み(つまり、テーブルの各セルで位置インデックスをリセットする)を使用しています。
使用可能なもう1つの(非デフォルト)バージョンは以下の通りです。
no_reset
:tapas_sqa_inter_masklm_small
(中間事前学習、絶対位置埋め込み)に対応しています。
免責事項:TAPASをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームと貢献者によって作成されました。
🚀 クイックスタート
このモデルは、会話形式でテーブルに関連する質問に答えるために使用できます。コード例については、HuggingFaceウェブサイトのTAPASのドキュメントを参照してください。
✨ 主な機能
- 2つのバージョンを持ち、異なる位置埋め込み方式をサポート。
- 大規模な英語のWikipediaデータセットで自己教師付き学習を行った事前学習済みモデル。
- マスク言語モデリング(MLM)と中間事前学習を用いた事前学習。
- 逐次質問応答(SQA)タスクでファインチューニングされている。
📚 ドキュメント
SQA - 開発セットの精度に関する結果
モデルの説明
TAPASは、Wikipediaの大規模な英語データセットを用いて自己教師付き学習方式で事前学習された、BERTに似たトランスフォーマーモデルです。
これは、生のテーブルと関連するテキストのみを使用して事前学習され、人間によるラベル付けは一切行われず(このため、多くの公開データを使用できます)、それらのテキストから入力とラベルを自動的に生成するプロセスで行われました。より正確には、2つの目的で事前学習されました。
- マスク言語モデリング(MLM):(平坦化された)テーブルと関連するコンテキストを入力として、モデルは入力の単語の15%をランダムにマスクし、その後、全体の(部分的にマスクされた)シーケンスをモデルに通します。モデルはその後、マスクされた単語を予測する必要があります。これは、通常は単語を1つずつ見る従来の再帰型ニューラルネットワーク(RNN)や、内部的に未来のトークンをマスクするGPTのような自己回帰モデルとは異なります。これにより、モデルはテーブルと関連するテキストの双方向表現を学習することができます。
- 中間事前学習:テーブルに対する数値推論を促進するために、著者らは数百万の構文的に作成されたトレーニング例からなるバランスの取れたデータセットを作成して、モデルをさらに事前学習させました。ここでは、モデルは文がテーブルの内容によって支持されるか反駁されるかを予測(分類)する必要があります。トレーニング例は、合成文と反事実文の両方に基づいて作成されます。
このようにして、モデルはテーブルと関連するテキストで使用される英語の内部表現を学習し、これを使用して、テーブルに関する質問に答えるなどの下流タスクや、文がテーブルの内容によって含意されるか反駁されるかを判断するために有用な特徴を抽出することができます。ファインチューニングは、事前学習されたモデルの上にセル選択ヘッドを追加し、その後、このランダムに初期化された分類ヘッドをSQAでベースモデルと共同で学習させることによって行われます。
想定される用途と制限
このモデルは、会話形式でテーブルに関連する質問に答えるために使用できます。
コード例については、HuggingFaceウェブサイトのTAPASのドキュメントを参照してください。
トレーニング手順
前処理
テキストは小文字に変換され、WordPieceを使用してトークン化され、語彙サイズは30,000です。モデルの入力は次の形式になります。
[CLS] 質問 [SEP] 平坦化されたテーブル [SEP]
ファインチューニング
モデルは、32個のCloud TPU v3コアで200,000ステップ、最大シーケンス長512、バッチサイズ128でファインチューニングされました。
この設定では、ファインチューニングに約20時間かかります。使用されるオプティマイザはAdamで、学習率は1.25e-5、ウォームアップ率は0.2です。モデルが同じ列のセルのみを選択するように誘導バイアスが追加されています。これは TapasConfig
の select_one_column
パラメータに反映されています。詳細は 元の論文 の表12を参照してください。
BibTeX引用
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@InProceedings{iyyer2017search-based,
author = {Iyyer, Mohit and Yih, Scott Wen-tau and Chang, Ming-Wei},
title = {Search-based Neural Structured Learning for Sequential Question Answering},
booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics},
year = {2017},
month = {July},
abstract = {Recent work in semantic parsing for question answering has focused on long and complicated questions, many of which would seem unnatural if asked in a normal conversation between two humans. In an effort to explore a conversational QA setting, we present a more realistic task: answering sequences of simple but inter-related questions. We collect a dataset of 6,066 question sequences that inquire about semi-structured tables from Wikipedia, with 17,553 question-answer pairs in total. To solve this sequential question answering task, we propose a novel dynamic neural semantic parsing framework trained using a weakly supervised reward-guided search. Our model effectively leverages the sequential context to outperform state-of-the-art QA systems that are designed to answer highly complex questions.},
publisher = {Association for Computational Linguistics},
url = {https://www.microsoft.com/en-us/research/publication/search-based-neural-structured-learning-sequential-question-answering/},
}
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。