tapas - ミニオープンソーステーブルデータ処理モデル - テーブル情報と関連テキストを無料で処理

ホーム

Tapas Mini

googleによって開発

TAPASはTransformerアーキテクチャに基づくBERT型のモデルで、表データと関連テキストの処理用に設計され、自己教師付き方式でウィキペディアの表データで事前学習されています。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #表形式の質問応答 #表の意味理解 #数値推論

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

このモデルは表形式の質問応答と表の含意タスクに最適化されており、表から情報を抽出し、表とテキストの関係を理解することができます。2種類の位置埋め込みバージョンを提供します：デフォルトの相対位置埋め込み（reset版）と絶対位置埋め込み（no_reset版）。

モデル特徴

表感知事前学習

マスク言語モデリングと中間事前学習段階を通じて、表構造とテキストの関連表現を専門的に学習します。

双位置埋め込みサポート

相対位置埋め込み（デフォルト）と絶対位置埋め込みの2種類のバージョンを提供し、さまざまな表処理のニーズに対応します。

弱教師付き学習

事前学習プロセスは完全に自動生成された表 - テキストペアに基づいており、人為的なアノテーションデータは必要ありません。

モデル能力

表データの理解

表形式の質問応答

表の含意判断

表 - テキスト関連分析

使用事例

スマート文書処理

財務諸表の質問応答

企業の財務諸表から、収益、利益などの指標に関する問い合わせに自動的に回答します。

表から数値情報を正確に抽出し、コンテキストを関連付けて説明することができます。

データ分析

研究データの検証

研究論文の記述が提供されたデータ表と一致するかどうかを検証します。

表データが与えられた記述を支持するか反駁するかを識別することができます。

🚀 TAPASミニモデル

TAPASミニモデルには2つの利用可能なバージョンがあり、表データと関連テキストの処理を支援します。最新バージョン（デフォルトバージョン）は、元のGitHubリポジトリのtapas_inter_masklm_mini_resetチェックポイントに対応しています。このモデルは、MLMと著者が呼ぶ中間事前学習ステップで事前学習されており、デフォルトでは相対位置埋め込みを使用しています。

🚀 クイックスタート

このモデルには2つの利用可能なバージョンがあります。デフォルトバージョンは元のGitHubリポジトリのtapas_inter_masklm_mini_resetチェックポイントに対応しており、もう1つの非デフォルトバージョンは絶対位置埋め込みを使用し、バージョン番号はrevision="no_reset"で、tapas_inter_masklm_miniに対応しています。

✨ 主な機能

2種類のバージョンから選択可能：デフォルトの相対位置埋め込みバージョンと非デフォルトの絶対位置埋め込みバージョンを提供します。
自己教師付き事前学習：大量の英語のウィキペディアデータで自己教師付き事前学習を行っており、大量の公開データを利用できます。
複数の目的での事前学習：マスク言語モデル（MLM）と中間事前学習の2つの目的で事前学習を行い、表と関連テキストの双方向表現を学習します。

📚 ドキュメント

モデルの説明

TAPASはBERTに似たTransformerモデルで、自己教師付き方式で大量の英語のウィキペディアデータコーパスで事前学習されています。このモデルは、元の表と関連テキストのみで事前学習され、人工的なアノテーションは必要ありません。自動化されたプロセスによってこれらのテキストから入力とラベルが生成されます。具体的には、2つの目的で事前学習されています。

マスク言語モデル（MLM）：モデルは入力中の15%の単語をランダムにマスクし、その後、全体の（部分的にマスクされた）シーケンスをモデルに通して、マスクされた単語を予測します。これにより、表と関連テキストの双方向表現を学習します。
中間事前学習：表上の数値推論を促進するために、著者は数百万の構文的に作成されたトレーニング例のバランスの取れたデータセットを作成してモデルをさらに事前学習します。モデルは、文が表の内容によって支持されるか反駁されるかを予測する必要があります。

想定される用途と制限

元のモデルを使用して表 - 質問ペアの隠れた表現を取得することができますが、主に下流タスク（質問応答やシーケンス分類など）で微調整するために使用されます。モデルセンターで、関心のあるタスクの微調整バージョンを見つけることができます。

トレーニングプロセス

前処理

テキストはWordPieceを使用して小文字化とトークン化が行われ、語彙サイズは30,000です。モデルの入力形式は以下の通りです。

[CLS] Sentence [SEP] Flattened table [SEP]

事前学習

モデルは32個のCloud TPU v3コアで1,000,000ステップの事前学習を行い、最大シーケンス長は512、バッチサイズは512です。MLMのみでの事前学習には約3日かかります。さらに、モデルは2番目のタスク（表の含意）でも事前学習されています。詳細については、元のTAPASの論文と後続の論文を参照してください。

使用されるオプティマイザはAdamで、学習率は5e - 5、ウォームアップ率は0.01です。

BibTeX引用と引用情報

@misc{herzig2020tapas,
      title={TAPAS: Weakly Supervised Table Parsing via Pre-training}, 
      author={Jonathan Herzig and PaweÅ‚ Krzysztof Nowak and Thomas MÃ¼ller and Francesco Piccinno and Julian Martin Eisenschlos},
      year={2020},
      eprint={2004.02349},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}

@misc{eisenschlos2020understanding,
      title={Understanding tables with intermediate pre-training}, 
      author={Julian Martin Eisenschlos and Syrine Krichene and Thomas MÃ¼ller},
      year={2020},
      eprint={2010.00571},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}