tapas-base-finetuned-sqaオープンソースの表形式質問応答モデル - 数値推論をサポートし、表形式の質問に正確に解答

ホーム

Tapas Base Finetuned Sqa

googleによって開発

BERTアーキテクチャに基づく表形式質問応答モデルで、中間事前学習により数値推論能力を強化し、SQAデータセットで微調整を行った。

質問応答システム

Transformers

英語オープンソースライセンス:Apache-2.0 #表形式質問応答 #順序対話処理 #数値推論

ダウンロード数 1,867

リリース時間 : 3/2/2022

モデル概要

順序質問応答タスク用に設計された表解析モデルで、対話シナリオにおける表データの照会をサポートする。

モデル特徴

相対位置埋め込み

表の各セルで位置インデックスをリセットし、表構造の理解能力を向上させる。

中間事前学習

合成データを通じて数値推論能力を強化し、表内容の検証タスクをサポートする。

双目的事前学習

マスク言語モデリングと表推論タスクを組み合わせ、表とテキストの統合表現を学習する。

モデル能力

表データ質問応答

表内容検証

数値推論

セル間関係理解

使用事例

スマートカスタマーサービス

表データ照会

自然言語で構造化表のデータを照会する。

SQA開発セットの正解率68.74%（位置リセットバージョン）

データ分析

自動レポート生成

表の内容に基づいてデータの要約と統計結果を生成する。

🚀 TAPAS基礎モデルのシーケンシャル質問応答（SQA）におけるファインチューニング版

このモデルには2つの利用可能なバージョンがあります。デフォルトのバージョンは、元のGitHubリポジトリの tapas_sqa_inter_masklm_base_reset チェックポイントに対応しています。このモデルは、マスク言語モデル（MLM）と著者が呼ぶ中間事前学習ステップで事前学習され、その後SQAでファインチューニングされています。相対位置埋め込み（つまり、表の各セルで位置インデックスをリセットする）を使用しています。

もう1つ（非デフォルト）の利用可能なバージョンは次の通りです。

no_reset：tapas_sqa_inter_masklm_base（中間事前学習、絶対位置埋め込み）に対応しています。

免責事項：TAPASを公開したチームはこのモデルのモデルカードを作成しておらず、このモデルカードはHugging Faceチームと貢献者によって作成されています。

✨ 主な機能

大規模な英語のウィキペディアデータを使用して自己教師付き事前学習を行い、表と関連テキストの言語の内部表現を学習します。
2種類の位置埋め込み方式をサポートしており、必要に応じて異なるバージョンを選択できます。
対話シナリオにおける表の質問応答タスクに使用できます。

📚 ドキュメント

SQAでの開発精度結果

モデル規模	位置インデックスのリセット	開発精度	リンク
LARGE	noreset	0.7223	tapas-large-finetuned-sqa (絶対位置埋め込み)
LARGE	reset	0.7289	tapas-large-finetuned-sqa
BASE	noreset	0.6737	tapas-base-finetuned-sqa (絶対位置埋め込み)
BASE	reset	0.6874	tapas-base-finetuned-sqa
MEDIUM	noreset	0.6464	tapas-medium-finetuned-sqa (絶対位置埋め込み)
MEDIUM	reset	0.6561	tapas-medium-finetuned-sqa
SMALL	noreset	0.5876	tapas-small-finetuned-sqa (絶対位置埋め込み)
SMALL	reset	0.6155	tapas-small-finetuned-sqa
MINI	noreset	0.4574	tapas-mini-finetuned-sqa (絶対位置埋め込み)
MINI	reset	0.5148	tapas-mini-finetuned-sqa
TINY	noreset	0.2004	tapas-tiny-finetuned-sqa (絶対位置埋め込み)
TINY	reset	0.2375	tapas-tiny-finetuned-sqa

モデルの説明

TAPASは、BERTに似たTransformerモデルで、大規模な英語のウィキペディアデータを使って自己教師付きで事前学習されています。これは、モデルが元の表と関連テキストのみで事前学習され、人工的な注釈は一切なく（したがって、大量の公開データを使用できます）、自動プロセスによってこれらのテキストから入力とラベルが生成されることを意味します。より正確には、2つの目標で事前学習されています。

マスク言語モデル（MLM）：（扁平化された）表と関連するコンテキストが与えられると、モデルは入力中の15％の単語をランダムにマスクし、その後、全体の（部分的にマスクされた）シーケンスをモデルに入力します。モデルはマスクされた単語を予測する必要があります。これは、通常は単語を1つずつ処理する従来の再帰型ニューラルネットワーク（RNN）とは異なり、GPTのような自己回帰モデルとも異なり、GPTは内部で未来のトークンをマスクします。これにより、モデルは表と関連テキストの双方向表現を学習することができます。
中間事前学習：表上の数値推論を促進するために、著者は数百万の文法的に生成されたトレーニング例のバランスの取れたデータセットを作成することで、モデルを追加で事前学習しました。ここでは、モデルは文が表の内容によって支持されるか反駁されるかを予測（分類）する必要があります。トレーニング例は合成および反事実文に基づいて作成されています。

このようにして、モデルは表と関連テキストで使用される英語の内部表現を学習し、その後、表に関する質問に答える、または文が表の内容によって含意されるか反駁されるかを判断するなど、下流のタスクに有用な特徴を抽出するために使用できます。ファインチューニングは、事前学習されたモデルの上にセル選択ヘッドを追加し、その後、このランダムに初期化された分類ヘッドとベースモデルをSQAで共同でトレーニングすることで行われます。

想定用途と制限

このモデルを使用して、対話シナリオで表に関連する質問に答えることができます。コード例については、Hugging Faceのウェブサイト上のTAPASのドキュメントを参照してください。

トレーニングプロセス

前処理

テキストは小文字に変換され、WordPieceを使用してトークン化され、語彙サイズは30,000です。モデルの入力形式は次の通りです。

[CLS] 質問 [SEP] 扁平化表 [SEP]

ファインチューニング

このモデルは、32個のCloud TPU v3コア上で200,000ステップのファインチューニングを行い、最大シーケンス長は512、バッチサイズは128です。この設定では、ファインチューニングに約20時間かかります。使用されるオプティマイザはAdamで、学習率は1.25e-5、ウォームアップ率は0.2です。誘導バイアスが追加され、モデルは同じ列のセルのみを選択します。これは TapasConfig の select_one_column パラメータに反映されています。詳細は元の論文の表12を参照してください。

BibTeX引用と引用情報

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@InProceedings{iyyer2017search-based,
author = {Iyyer, Mohit and Yih, Scott Wen-tau and Chang, Ming-Wei},
title = {Search-based Neural Structured Learning for Sequential Question Answering},
booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics},
year = {2017},
month = {July},
abstract = {Recent work in semantic parsing for question answering has focused on long and complicated questions, many of which would seem unnatural if asked in a normal conversation between two humans. In an effort to explore a conversational QA setting, we present a more realistic task: answering sequences of simple but inter-related questions. We collect a dataset of 6,066 question sequences that inquire about semi-structured tables from Wikipedia, with 17,553 question-answer pairs in total. To solve this sequential question answering task, we propose a novel dynamic neural semantic parsing framework trained using a weakly supervised reward-guided search. Our model effectively leverages the sequential context to outperform state-of-the-art QA systems that are designed to answer highly complex questions.},
publisher = {Association for Computational Linguistics},
url = {https://www.microsoft.com/en-us/research/publication/search-based-neural-structured-learning-sequential-question-answering/},
}