🚀 TAPAS base model
このモデルには2つのバージョンがあり、使用することができます。最新バージョン(デフォルト)は、元のGitHubリポジトリ の tapas_inter_masklm_base_reset
チェックポイントに対応しています。
このモデルは、MLMと著者が中間事前学習と呼ぶ追加のステップで事前学習されています。デフォルトでは相対位置埋め込みを使用しています(つまり、テーブルの各セルで位置インデックスをリセットします)。
使用できるもう1つの(非デフォルト)バージョンは、絶対位置埋め込みを使用したものです。
revision="no_reset"
は、tapas_inter_masklm_base
に対応しています。
免責事項: TAPASをリリースしたチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームと貢献者によって作成されました。
✨ 主な機能
📚 モデルの説明
TAPASは、Wikipediaの英語データの大規模コーパスを使って自己教師付き学習方式で事前学習されたBERTのようなトランスフォーマーモデルです。
これは、生のテーブルと関連するテキストのみを使って事前学習され、人間が何らかの形でラベル付けを行っていないことを意味します(このため、公開されている大量のデータを使用することができます)。そして、それらのテキストから入力とラベルを自動的に生成するプロセスがあります。より正確には、2つの目的で事前学習されています。
- マスク付き言語モデリング (MLM): (平坦化された)テーブルと関連するコンテキストを入力として、モデルは入力の単語の15%をランダムにマスクし、その後、(部分的にマスクされた)全体のシーケンスをモデルに通します。そして、モデルはマスクされた単語を予測する必要があります。これは、通常は単語を1つずつ見る従来の再帰型ニューラルネットワーク (RNN) や、内部的に未来のトークンをマスクするGPTのような自己回帰型モデルとは異なります。これにより、モデルはテーブルと関連するテキストの双方向表現を学習することができます。
- 中間事前学習: テーブルに対する数値的推論を促進するために、著者らはさらに、数百万の構文的に作成されたトレーニング例のバランスの取れたデータセットを作成してモデルを事前学習させました。ここでは、モデルは、文がテーブルの内容によって支持されるか反駁されるかを予測(分類)する必要があります。トレーニング例は、合成文と反事実文の両方に基づいて作成されています。
このように、モデルはテーブルと関連するテキストで使用される英語の内部表現を学習し、これを使用して、テーブルに関する質問に答える、または文がテーブルの内容によって含意されるか反駁されるかを判断するなどの下流タスクに役立つ特徴を抽出することができます。ファインチューニングは、事前学習されたモデルの上に1つ以上の分類ヘッドを追加し、その後、これらのランダムに初期化された分類ヘッドをベースモデルと一緒に下流タスクで共同学習することで行われます。
📋 想定される用途と制限
生のモデルを使用して、テーブルと質問のペアに関する隠れた表現を取得することができますが、主に、質問応答やシーケンス分類などの下流タスクでファインチューニングすることを想定しています。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブ を参照してください。
🔧 トレーニング手順
前処理
テキストは小文字に変換され、WordPieceを使用してトークン化されます。語彙サイズは30,000です。モデルの入力は次の形式になります。
[CLS] Sentence [SEP] Flattened table [SEP]
事前学習
このモデルは、32個のCloud TPU v3コアで、最大シーケンス長512、バッチサイズ512で1,000,000ステップの事前学習を行いました。
この設定では、MLMのみの事前学習に約3日かかります。さらに、モデルは別のタスク(テーブル含意)でも事前学習されています。詳細については、元のTAPASの論文 と追跡論文 を参照してください。
使用されたオプティマイザは、学習率5e-5、ウォームアップ率0.01のAdamです。
BibTeXエントリと引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。