🚀 TAPASベースモデルを表事実検証 (TabFact) でファインチューニングしたもの
このモデルには2つのバージョンがあり、使用することができます。最新バージョン(デフォルト)は、元のGitHubリポジトリ の tapas_tabfact_inter_masklm_base_reset
チェックポイントに対応しています。
このモデルは、MLMと著者が中間事前学習と呼ぶ追加のステップで事前学習され、その後 TabFact でファインチューニングされました。デフォルトでは相対位置埋め込みを使用しています(つまり、表の各セルで位置インデックスをリセットします)。
使用できるもう1つの(非デフォルト)バージョンは、絶対位置埋め込みを使用したものです。
no_reset
:tapas_tabfact_inter_masklm_base
に対応
免責事項:TAPASをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームと貢献者によって作成されました。
🚀 クイックスタート
このモデルは、文章が表の内容によって支持されるか反駁されるかを分類するために使用できます。コード例については、HuggingFaceウェブサイトのTAPASのドキュメントを参照してください。
✨ 主な機能
このモデルには2つのバージョンがあり、それぞれ相対位置埋め込みと絶対位置埋め込みを使用しています。これにより、異なるシナリオでの使用が可能です。
📚 ドキュメント
モデルの説明
TAPASは、Wikipediaの大量の英語データコーパスを自己教師付き学習で事前学習したBERTのようなトランスフォーマーモデルです。
これは、人間によるラベリングなしで、生の表と関連するテキストのみを使用して事前学習されたことを意味します(このため、多くの公開データを使用できます)。具体的には、これらのテキストから入力とラベルを自動生成するプロセスがあります。より正確には、2つの目的で事前学習されています。
- マスク言語モデリング (MLM):(平坦化された)表と関連するコンテキストを取り、モデルは入力の単語の15%をランダムにマスクし、その後、部分的にマスクされた全体のシーケンスをモデルに通します。モデルはその後、マスクされた単語を予測する必要があります。これは、通常1つずつ単語を見る従来の再帰型ニューラルネットワーク (RNN) や、内部的に未来のトークンをマスクするGPTのような自己回帰モデルとは異なります。これにより、モデルは表と関連するテキストの双方向表現を学習することができます。
- 中間事前学習:表に関する数値推論を促進するために、著者は数百万の構文的に作成されたトレーニング例のバランスの取れたデータセットを作成してモデルを追加で事前学習しました。ここでは、モデルは文章が表の内容によって支持されるか反駁されるかを予測(分類)する必要があります。トレーニング例は、合成文と反事実文に基づいて作成されています。
このようにして、モデルは表と関連するテキストで使用される英語の内部表現を学習し、これを表に関する質問に答える、または文章が表の内容によって含意されるか反駁されるかを判断するなどの下流タスクに役立つ特徴を抽出するために使用することができます。ファインチューニングは、事前学習されたモデルの上に分類ヘッドを追加し、その後、このランダムに初期化された分類ヘッドとベースモデルをTabFactで共同学習することで行われます。
トレーニング手順
前処理
テキストは小文字に変換され、WordPieceを使用して語彙サイズ30,000でトークン化されます。モデルの入力は次の形式になります。
[CLS] Sentence [SEP] Flattened table [SEP]
ファインチューニング
モデルは、最大シーケンス長512、バッチサイズ512で32個のCloud TPU v3コアで80,000ステップファインチューニングされました。
この設定では、ファインチューニングに約14時間かかります。使用されるオプティマイザは、学習率2e-5、ウォームアップ率0.05のAdamです。詳細については、論文 を参照してください(付録A2)。
BibTeXエントリと引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@inproceedings{2019TabFactA,
title={TabFact : A Large-scale Dataset for Table-based Fact Verification},
author={Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou and William Yang Wang},
booktitle = {International Conference on Learning Representations (ICLR)},
address = {Addis Ababa, Ethiopia},
month = {April},
year = {2020}
}
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で提供されています。