🚀 TAPAS小モデル
TAPAS小モデルには2つの利用可能なバージョンがあり、ユーザーが表データから情報を抽出するのを支援します。質問応答やシーケンス分類などの下流タスクに適しています。
✨ 主な機能
- このモデルには2つの利用可能なバージョンがあり、デフォルトのバージョンは元のGitHubリポジトリの
tapas_inter_masklm_small_reset
チェックポイントに対応しています。
- モデルはMLMと、著者が中間事前学習と呼ぶ追加のステップで事前学習されており、デフォルトでは相対位置埋め込み(つまり、表の各セルで位置インデックスをリセットする)が使用されます。
- もう1つの非デフォルトのバージョンは絶対位置埋め込みを使用しており、
revision="no_reset"
は tapas_inter_masklm_small
に対応しています。
📚 ドキュメント
モデルの説明
TAPASはBERTに似たTransformerモデルで、ウィキペディアからの大量の英語データコーパスで自己教師付き方式で事前学習されています。これは、モデルが元の表と関連するテキストのみで事前学習され、人工的に何らかの形でラベル付けされていないことを意味します(このため、大量の公開データを使用できます)。そして、自動プロセスによってこれらのテキストから入力とラベルが生成されます。より正確には、モデルは2つの目標で事前学習されます。
- マスク言語モデル(MLM):(扁平化された)表と関連するコンテキストが与えられた場合、モデルは入力中の15%の単語をランダムにマスクし、その後、全体の(部分的にマスクされた)シーケンスをモデルに入力します。モデルはその後、マスクされた単語を予測する必要があります。これは、通常は単語を1つずつ見る従来の再帰型ニューラルネットワーク(RNN)とは異なり、GPTのように内部で未来のトークンをマスクする自己回帰モデルとも異なります。これにより、モデルは表と関連するテキストの双方向表現を学習することができます。
- 中間事前学習:表上での数値推論を促進するために、著者は数百万の文法的に生成された学習例のバランスの取れたデータセットを作成することで、モデルに追加の事前学習を行いました。ここでは、モデルは文が表の内容によって支持されるか反駁されるかを予測(分類)する必要があります。学習例は合成文と反事実文に基づいて作成されています。
このようにして、モデルは表と関連するテキストで使用される英語の内部表現を学習し、その後、表に関する質問に回答するなどの下流タスクに有用な特徴を抽出するために使用できます。また、文が表の内容によって含意されるか反駁されるかを判断することもできます。微調整は、事前学習されたモデルの上に1つまたは複数の分類ヘッドを追加し、その後、これらのランダムに初期化された分類ヘッドとベースモデルを下流タスクで共同学習することで行われます。
想定用途と制限
元のモデルを使用して、表 - 質問ペアの隠れ表現を取得することができますが、主に下流タスク(質問応答やシーケンス分類など)での微調整に使用されます。詳細については、モデルセンターを参照し、関心のあるタスクで微調整されたバージョンを見つけてください。
学習過程
前処理
テキストはWordPieceを使用して小文字化され、分詞されます。語彙サイズは30,000です。モデルの入力形式は次の通りです。
[CLS] 文 [SEP] 扁平化された表 [SEP]
事前学習
モデルは32個のCloud TPU v3コアで1,000,000ステップの事前学習を行いました。最大シーケンス長は512、バッチサイズは512です。この設定では、MLMのみで事前学習するのに約3日かかります。さらに、モデルは2番目のタスク(表含意)でも追加の事前学習を行っています。詳細については、元のTAPAS 論文 と 後続の論文 を参照してください。
使用されたオプティマイザはAdamで、学習率は5e - 5、ウォームアップ率は0.01です。
BibTeX引用と引用情報
@misc{herzig2020tapas,
title={TAPAS: Weakly Supervised Table Parsing via Pre-training},
author={Jonathan Herzig and Paweł Krzysztof Nowak and Thomas Müller and Francesco Piccinno and Julian Martin Eisenschlos},
year={2020},
eprint={2004.02349},
archivePrefix={arXiv},
primaryClass={cs.IR}
}
@misc{eisenschlos2020understanding,
title={Understanding tables with intermediate pre-training},
author={Julian Martin Eisenschlos and Syrine Krichene and Thomas Müller},
year={2020},
eprint={2010.00571},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
このモデルはApache 2.0ライセンスを使用しています。
⚠️ 重要提示
TAPASを公開したチームはこのモデルのモデルカードを作成していません。このモデルカードはHugging Faceチームと貢献者によって作成されています。