🚀 TAPAS tinyモデル
このモデルには2つのバージョンがあり、利用可能です。最新バージョン(デフォルト)は、元のGitHubリポジトリの tapas_inter_masklm_tiny_reset
チェックポイントに対応しています。
このモデルは、MLMと著者が中間事前学習と呼ぶ追加のステップで事前学習されています。デフォルトでは相対位置埋め込みを使用しています(つまり、テーブルの各セルで位置インデックスをリセットします)。
もう1つの(非デフォルト)バージョンは、絶対位置埋め込みを使用したものです。
revision="no_reset"
は、tapas_inter_masklm_tiny
に対応しています。
免責事項:TAPASをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームと貢献者によって作成されました。
📚 モデルの説明
TAPASは、Wikipediaの大量の英語データコーパスを自己教師付き学習方式で事前学習したBERTライクなTransformerモデルです。
つまり、このモデルは生のテーブルと関連するテキストのみを使用して事前学習され、人間によるラベル付けは一切行われていません(このため、多数の公開データを利用できます)。自動的なプロセスにより、これらのテキストから入力とラベルを生成します。具体的には、2つの目的で事前学習されています。
- マスク言語モデリング(MLM):(平坦化された)テーブルと関連するコンテキストを入力として、モデルは入力中の単語の15%をランダムにマスクし、その後、部分的にマスクされた全体のシーケンスをモデルに通します。モデルはマスクされた単語を予測する必要があります。これは、通常、単語を1つずつ処理する従来の再帰型ニューラルネットワーク(RNN)や、内部で未来のトークンをマスクするGPTのような自己回帰型モデルとは異なります。これにより、モデルはテーブルと関連するテキストの双方向表現を学習することができます。
- 中間事前学習:テーブルに関する数値推論を促進するために、著者らは数百万の構文的に作成されたトレーニング例のバランスの取れたデータセットを作成し、モデルをさらに事前学習させました。ここでは、モデルは文がテーブルの内容によって支持されるか反駁されるかを予測(分類)する必要があります。トレーニング例は、合成文と反事実文に基づいて作成されます。
このようにして、モデルはテーブルと関連するテキストで使用される英語の内部表現を学習し、これを使用して、テーブルに関する質問に回答する、または文がテーブルの内容によって含意されるか反駁されるかを判断するなどの下流タスクに有用な特徴を抽出することができます。ファインチューニングは、事前学習されたモデルの上に1つ以上の分類ヘッドを追加し、その後、これらのランダムに初期化された分類ヘッドをベースモデルとともに下流タスクで共同で学習することによって行われます。
🎯 想定される用途と制限
生のモデルを使用して、テーブルと質問のペアに関する隠れ表現を取得することもできますが、主に質問応答やシーケンス分類などの下流タスクでファインチューニングすることを想定しています。関心のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。
🔧 学習手順
前処理
テキストは小文字に変換され、WordPieceを使用してトークン化されます。語彙サイズは30,000です。モデルの入力は以下の形式になります。
[CLS] Sentence [SEP] Flattened table [SEP]
事前学習
モデルは、最大シーケンス長512、バッチサイズ512で、32個のCloud TPU v3コア上で1,000,000ステップ事前学習されました。
この設定では、MLMのみの事前学習に約3日かかります。さらに、モデルは第2のタスク(テーブル含意)でも事前学習されています。詳細については、元のTAPASの論文と追跡論文を参照してください。
使用されるオプティマイザはAdamで、学習率は5e-5、ウォームアップ率は0.01です。
BibTeXエントリと引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。