🚀 TAPAS大型モデル
TAPAS大型モデルには2つのバージョンがあり、表に関連する自然言語タスクを処理するのに役立ち、表データの理解と分析能力を効果的に向上させます。
🚀 クイックスタート
このモデルには2つの利用可能なバージョンがあります。最新バージョンがデフォルトバージョンで、オリジナルのGitHubリポジトリ の tapas_inter_masklm_large_reset
チェックポイントに対応しています。このモデルは、マスク言語モデル(MLM)と著者が呼ぶ中間事前学習の追加ステップで事前学習されています。デフォルトでは、相対位置埋め込み(つまり、表の各セルで位置インデックスをリセットする)を使用します。
もう1つの(非デフォルト)利用可能なバージョンは、絶対位置埋め込みを使用するバージョンです。
revision="no_reset"
、tapas_inter_masklm_large
に対応。
声明:TAPASを公開したチームはこのモデルのモデルカードを作成していません。このモデルカードはHugging Faceチームと貢献者によって作成されました。
✨ 主な機能
モデルの説明
TAPASはBERTに似たTransformerモデルで、ウィキペディアからの大量の英語データコーパスで自己教師付き方式で事前学習されています。つまり、元の表と関連するテキストのみで事前学習され、人工的に何らかの方法でラベル付けされていません(このため、大量の公開データを使用できます)。そして、これらのテキストから自動プロセスで入力とラベルを生成します。より正確には、2つの目標で事前学習されています。
- マスク言語モデル(MLM):(扁平化された)表と関連するコンテキストが与えられた場合、モデルは入力の15%の単語をランダムにマスクし、その後、全体の(部分的にマスクされた)シーケンスをモデルに入力します。次に、モデルはマスクされた単語を予測する必要があります。これは、通常は単語を1つずつ処理する従来の再帰型ニューラルネットワーク(RNN)とは異なり、GPTのように内部で未来のトークンをマスクする自己回帰型モデルとも異なります。これにより、モデルは表と関連するテキストの双方向表現を学習することができます。
- 中間事前学習:表の数値推論を促進するために、著者は数百万の文法的に生成されたトレーニング例のバランスの取れたデータセットを作成することで、モデルに追加の事前学習を行いました。ここでは、モデルは文が表の内容によって支持されているか反駁されているかを予測(分類)する必要があります。トレーニング例は合成文と反事実文に基づいて作成されています。
このようにして、モデルは表と関連するテキストで使用される英語の内部表現を学習し、その後、表に関する質問に回答するなどの下流タスク、または文が表の内容によって含意されているか反駁されているかを判断するなど、下流タスクに有用な特徴を抽出するために使用できます。微調整は、事前学習されたモデルの上に1つまたは複数の分類ヘッドを追加し、その後、これらのランダムに初期化された分類ヘッドと基礎モデルを下流タスクで共同でトレーニングすることで行われます。
想定される用途と制限
元のモデルを使用して、表 - 質問ペアの隠れた表現を取得することができますが、主に下流タスク(質問応答やシーケンス分類など)での微調整に使用されます。関心のあるタスクで微調整されたバージョンを見つけるには、モデルセンター を確認してください。
トレーニングプロセス
前処理
テキストはWordPieceを使用して小文字に変換され、分詞されます。語彙サイズは30,000です。モデルの入力形式は次の通りです。
[CLS] 文 [SEP] 扁平化された表 [SEP]
事前学習
このモデルは、32個のCloud TPU v3コアで1,000,000ステップの事前学習を行いました。最大シーケンス長は512、バッチサイズは512です。この設定では、MLMのみでの事前学習に約3日かかります。さらに、このモデルは2つ目のタスク(表含意)でも追加の事前学習を行っています。詳細については、オリジナルのTAPAS 論文 と 後続の論文 を参照してください。
使用されるオプティマイザはAdamで、学習率は5e - 5、ウォームアップ率は0.01です。
BibTeX引用と引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルはApache 2.0ライセンスで提供されています。