🚀 順序質問応答(SQA)で微調整されたTAPASミニモデル
このモデルには2つのバージョンがあります。デフォルトのバージョンは、元のGitHubリポジトリの tapas_sqa_inter_masklm_mini_reset
チェックポイントに対応しています。
このモデルは、MLMと著者が呼ぶ中間事前学習の追加ステップで事前学習され、その後SQAで微調整されました。相対位置埋め込み(つまり、表の各セルで位置インデックスをリセットする)を使用しています。
もう1つの(非デフォルト)バージョンは以下の通りです。
no_reset
:tapas_sqa_inter_masklm_mini
(中間事前学習、絶対位置埋め込み)に対応しています。
免責事項:TAPASを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームと貢献者によって作成されています。
✨ 主な機能
- 相対位置埋め込みと絶対位置埋め込みをそれぞれ使用する2つのバージョンから選択できます。
- 事前学習と微調整が行われ、順序質問応答タスクに使用できます。
📚 ドキュメント
SQAでの結果 - 開発セットの正解率
モデルの説明
TAPASは、BERTに似たTransformerモデルで、Wikipediaからの大量の英語データコーパスで自己教師付き方式で事前学習されています。
つまり、このモデルは元の表と関連するテキストのみで事前学習され、人工的に何らかの方法でラベル付けされていません(このため、大量の公開データを使用できます)。そして、自動プロセスによってこれらのテキストから入力とラベルが生成されます。より正確には、2つの目標で事前学習されています。
- マスク言語モデル(MLM):(扁平化された)表と関連するコンテキストが与えられた場合、モデルは入力の15%の単語をランダムにマスクし、その後、全体の(部分的にマスクされた)シーケンスをモデルに入力します。そして、モデルはマスクされた単語を予測する必要があります。これは、通常、単語を1つずつ見る従来の再帰型ニューラルネットワーク(RNN)とは異なり、GPTのように内部で未来のトークンをマスクする自己回帰モデルとも異なります。これにより、モデルは表と関連するテキストの双方向表現を学習することができます。
- 中間事前学習:表の数値推論を促進するため、著者は数百万の文法生成されたトレーニング例のバランスの取れたデータセットを作成し、モデルを追加で事前学習しました。ここでは、モデルは文が表の内容によって支持されているか反駁されているかを予測(分類)する必要があります。トレーニング例は、合成および反事実文に基づいて作成されています。
このようにして、モデルは表と関連するテキストで使用される英語の内部表現を学習し、その後、表に関する質問に答える、または文が表の内容によって含意されているか反駁されているかを判断するなど、下流のタスクに有用な特徴を抽出するために使用できます。微調整は、事前学習されたモデルの上にセル選択ヘッドを追加し、その後、このランダムに初期化された分類ヘッドとベースモデルをSQAで共同学習することで行われます。
想定される用途と制限
このモデルを対話設定で使用して、表に関連する質問に答えることができます。
コード例については、Hugging FaceウェブサイトのTAPASのドキュメントを参照してください。
トレーニングプロセス
前処理
テキストはWordPieceを使用して小文字化され、分詞されます。語彙サイズは30,000です。モデルの入力形式は以下の通りです。
[CLS] 質問 [SEP] 扁平化表 [SEP]
微調整
このモデルは、32個のCloud TPU v3コアで200,000ステップの微調整が行われました。最大シーケンス長は512、バッチサイズは128です。
この設定では、微調整に約20時間かかります。使用されたオプティマイザはAdamで、学習率は1.25e - 5、ウォームアップ比率は0.2です。誘導バイアスが追加され、モデルは同じ列のセルのみを選択するようになります。これは TapasConfig
の select_one_column
パラメータに反映されています。また、元の論文の表12も参照してください。
BibTeX引用と引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@InProceedings{iyyer2017search-based,
author = {Iyyer, Mohit and Yih, Scott Wen-tau and Chang, Ming-Wei},
title = {Search-based Neural Structured Learning for Sequential Question Answering},
booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics},
year = {2017},
month = {July},
abstract = {Recent work in semantic parsing for question answering has focused on long and complicated questions, many of which would seem unnatural if asked in a normal conversation between two humans. In an effort to explore a conversational QA setting, we present a more realistic task: answering sequences of simple but inter-related questions. We collect a dataset of 6,066 question sequences that inquire about semi-structured tables from Wikipedia, with 17,553 question-answer pairs in total. To solve this sequential question answering task, we propose a novel dynamic neural semantic parsing framework trained using a weakly supervised reward-guided search. Our model effectively leverages the sequential context to outperform state-of-the-art QA systems that are designed to answer highly complex questions.},
publisher = {Association for Computational Linguistics},
url = {https://www.microsoft.com/en-us/research/publication/search-based-neural-structured-learning-sequential-question-answering/},
}
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。