オープンソースPEGASUS事前学習モデル - 無料デプロイで抽象要約の高速生成をサポート

ホーム

Staging Pegasus Gmeetsamsum

kmfodaによって開発

PEGASUSはTransformerベースの事前学習モデルで、抽象的な要約生成タスクに特化しています。間隔を空けた文を抽出して事前学習を行い、複数の要約データセットで優れた性能を発揮します。

テキスト生成

Transformers

英語#混合データセット事前学習 #抽象的な要約生成 #マルチドメイン適応

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

PEGASUSはテキスト要約のための事前学習モデルで、間隔を空けた文抽出に基づく事前学習手法を採用し、複数の要約データセットで最先端の性能を達成しました。

モデル特徴

混合データセット訓練

C4とHugeNewsデータセットを同時に訓練し、サンプル数に応じて重み付け混合することで、モデルの汎化能力を向上させました。

改良された文サンプリング戦略

15%-45%の範囲で均一サンプリングする間隔文比率を採用し、重要な文のサンプリング時に20%の均一ノイズを追加することで、モデルの頑健性を強化しました。

最適化されたトークナイザー

改行文字のエンコードをサポートするためSentencePieceトークナイザーをアップグレードし、段落分割情報の損失問題を解決しました。

長時間訓練

訓練ステップ数を150万回に増やし、事前学習のパープレキシティが十分に収束することを保証しました。

モデル能力

テキスト要約生成

マルチドメイン要約適応

長文処理

使用事例

ニュース要約

CNN/Daily Mailニュース要約

ニュース記事に対して簡潔で正確な要約を生成

ROUGE-1/2/Lスコア44.16/21.56/41.30

XSum極端要約

1文の極端な要約を生成

ROUGE-1/2/Lスコア47.60/24.83/39.64

学術論文要約

arXiv論文要約

学術論文に対して技術的な要約を生成

ROUGE-1/2/Lスコア44.21/16.95/25.67

PubMed医学要約

医学文献に対して専門的な要約を生成

ROUGE-1/2/Lスコア45.97/20.15/28.25

法律文書要約

法案要約

法律法案に対して簡明な要約を生成

ROUGE-1/2/Lスコア59.67/41.58/47.59

🚀 Pegasusモデル

Pegasusは、要約タスクに特化したモデルです。このモデルに関する詳細なドキュメントやオリジナルのコードについては、以下のリンクから参照できます。

🚀 クイックスタート

ドキュメント: こちら
オリジナルのTF 1コード: こちら
著者: Jingqing Zhang, Yao Zhao, Mohammad Saleh, Peter J. Liu (2019年12月18日)
メンテナ: @sshleifer
タスク: 要約

以下の内容は、著者のREADMEから引用したものです。

📚 ドキュメント

混合と確率的チェックポイント

C4とHugeNewsの両方のデータセットで、ギャップ文の比率をサンプリングしてPegasusモデルを訓練し、重要な文を確率的にサンプリングしました。更新された結果を以下の表に示します。

データセット	C4	HugeNews	混合と確率的
xsum	45.20/22.06/36.99	47.21/24.56/39.25	47.60/24.83/39.64
cnn_dailymail	43.90/21.20/40.76	44.17/21.47/41.11	44.16/21.56/41.30
newsroom	45.07/33.39/41.28	45.15/33.51/41.33	45.98/34.20/42.18
multi_news	46.74/17.95/24.26	47.52/18.72/24.91	47.65/18.75/24.95
gigaword	38.75/19.96/36.14	39.12/19.86/36.24	39.65/20.47/36.76
wikihow	43.07/19.70/34.79	41.35/18.51/33.42	46.39/22.12/38.41 *
reddit_tifu	26.54/8.94/21.64	26.63/9.01/21.60	27.99/9.81/22.94
big_patent	53.63/33.16/42.25	53.41/32.89/42.07	52.29/33.08/41.66 *
arxiv	44.70/17.27/25.80	44.67/17.18/25.73	44.21/16.95/25.67
pubmed	45.49/19.90/27.69	45.09/19.56/27.42	45.97/20.15/28.25
aeslc	37.69/21.85/36.84	37.40/21.22/36.45	37.68/21.25/36.51
billsum	57.20/39.56/45.80	57.31/40.19/45.82	59.67/41.58/47.59

「混合と確率的」モデルには、以下の変更があります。

C4とHugeNewsの両方のデータセットで訓練（データセットの混合は、サンプル数で重み付けされます）。
500kではなく150万ステップ訓練（事前学習のパープレキシティの収束が遅いことが観察されました）。
モデルは15％から45％の間でギャップ文の比率を均一にサンプリングします。
重要な文は、重要度スコアに20％の均一ノイズを加えてサンプリングされます。
SentencePieceトークナイザーを更新して、改行文字をエンコードできるようにしました。

(*) wikihowとbig_patentのデータセットの数値は、トークン化とデータの変更のために比較できません。

wikihowデータセットには、段落分割に役立つ改行文字が含まれていますが、C4とHugeNewsモデルのSentencePieceトークナイザーは改行文字をエンコードせず、この情報を失います。
BigPatentデータセットを更新して大文字小文字を保持し、一部のフォーマットのクリーニングも変更しました。詳細はTFDSの変更を参照してください。

「混合と確率的」モデルには、（論文のpegasus-largeから）以下の変更があります。

C4とHugeNewsの両方のデータセットで訓練（データセットの混合は、サンプル数で重み付けされます）。
500kではなく150万ステップ訓練（事前学習のパープレキシティの収束が遅いことが観察されました）。
モデルは15％から45％の間でギャップ文の比率を均一にサンプリングします。
重要な文は、重要度スコアに20％の均一ノイズを加えてサンプリングされます。
SentencePieceトークナイザーを更新して、改行文字をエンコードできるようにしました。

引用

@misc{zhang2019pegasus,
    title={PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization},
    author={Jingqing Zhang and Yao Zhao and Mohammad Saleh and Peter J. Liu},
    year={2019},
    eprint={1912.08777},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}