Pegasus-Xsum開源文本摘要模型 - 免費高效完成抽象文本摘要任務

首頁

Pegasus Xsum

由google開發

PEGASUS是一種基於Transformer的預訓練模型，專門用於抽象文本摘要任務。

文本生成英語#文本摘要預訓練 #混合數據集優化 #動態句子採樣

下載量 144.72k

發布時間 : 3/2/2022

模型概述

PEGASUS是一種基於Transformer架構的預訓練模型，專門設計用於抽象文本摘要任務。它通過在大規模文本數據上進行預訓練，學習生成高質量的摘要。

模型特點

混合與隨機訓練

同時在C4和HugeNews數據集上訓練，混合比例按樣本數量加權，並隨機採樣重要句子。

動態句子間隔比例

訓練時均勻採樣15%至45%之間的句子間隔比例，增強模型適應性。

重要性分數噪聲

在重要性句子採樣時對重要性分數添加20%的均勻噪聲，提高模型魯棒性。

改進的分詞器

更新了SentencePiece分詞器以支持編碼換行符，保留段落分割信息。

模型能力

文本摘要生成

多文檔摘要

抽象摘要

使用案例

新聞摘要

CNN/DailyMail新聞摘要

生成CNN/DailyMail新聞文章的簡短摘要

ROUGE-1/2/L: 44.16/21.56/41.30

學術論文摘要

arXiv論文摘要

生成arXiv學術論文的摘要

ROUGE-1/2/L: 44.21/16.95/25.67

法律文檔摘要

BigPatent專利摘要

生成專利文檔的摘要

ROUGE-1/2/L: 52.29/33.08/41.66

🚀 Google Pegasus-XSum 文本摘要模型

Google Pegasus-XSum 是一款專注於文本摘要任務的模型，它通過在大規模數據集上的訓練，能夠高效且準確地生成文本摘要，為信息提取和內容概括提供了強大的支持。

📚 詳細文檔

Pegasus 模型

文檔說明：點擊查看
原始 TF 1 代碼：點擊查看
作者：Jingqing Zhang、Yao Zhao、Mohammad Saleh 和 Peter J. Liu 於 2019 年 12 月 18 日發佈
維護者：@sshleifer
任務：文本摘要

模型指標

屬性	詳情
模型類型	google/pegasus-xsum
訓練數據	C4、HugeNews 等

以下是該模型在不同數據集上的評估指標：

samsum 數據集（訓練集）

指標名稱	指標類型	數值	是否驗證
ROUGE - 1	rouge	21.8096	是
ROUGE - 2	rouge	4.2525	是
ROUGE - L	rouge	17.4469	是
ROUGE - LSUM	rouge	18.8907	是
loss	loss	3.0317161083221436	是
gen_len	gen_len	20.3122	是

xsum 數據集（測試集）

指標名稱	指標類型	數值	是否驗證
ROUGE - 1	rouge	46.8623	是
ROUGE - 2	rouge	24.4533	是
ROUGE - L	rouge	39.0548	是
ROUGE - LSUM	rouge	39.0994	是
loss	loss	1.5717021226882935	是
gen_len	gen_len	22.8821	是

cnn_dailymail 數據集（測試集）

指標名稱	指標類型	數值	是否驗證
ROUGE - 1	rouge	22.2062	是
ROUGE - 2	rouge	7.6701	是
ROUGE - L	rouge	15.4046	是
ROUGE - LSUM	rouge	19.2182	是
loss	loss	2.681241273880005	是
gen_len	gen_len	25.0234	是

混合與隨機檢查點

我們在 C4 和 HugeNews 上以採樣的間隔句比例訓練了一個 Pegasus 模型，並隨機採樣重要句子。更新後的結果如下表所示：

數據集	C4	HugeNews	混合與隨機
xsum	45.20/22.06/36.99	47.21/24.56/39.25	47.60/24.83/39.64
cnn_dailymail	43.90/21.20/40.76	44.17/21.47/41.11	44.16/21.56/41.30
newsroom	45.07/33.39/41.28	45.15/33.51/41.33	45.98/34.20/42.18
multi_news	46.74/17.95/24.26	47.52/18.72/24.91	47.65/18.75/24.95
gigaword	38.75/19.96/36.14	39.12/19.86/36.24	39.65/20.47/36.76
wikihow	43.07/19.70/34.79	41.35/18.51/33.42	46.39/22.12/38.41 *
reddit_tifu	26.54/8.94/21.64	26.63/9.01/21.60	27.99/9.81/22.94
big_patent	53.63/33.16/42.25	53.41/32.89/42.07	52.29/33.08/41.66 *
arxiv	44.70/17.27/25.80	44.67/17.18/25.73	44.21/16.95/25.67
pubmed	45.49/19.90/27.69	45.09/19.56/27.42	45.97/20.15/28.25
aeslc	37.69/21.85/36.84	37.40/21.22/36.45	37.68/21.25/36.51
billsum	57.20/39.56/45.80	57.31/40.19/45.82	59.67/41.58/47.59

“混合與隨機”模型有以下更改：

在 C4 和 HugeNews 上進行訓練（數據集混合按示例數量加權）。
訓練步數從 50 萬增加到 150 萬（我們觀察到預訓練困惑度收斂較慢）。
模型在 15% 到 45% 之間均勻採樣間隔句比例。
使用 20% 的均勻噪聲對重要句子的重要性得分進行採樣。
更新了 SentencePiece 分詞器，使其能夠對換行符進行編碼。

(*) wikihow 和 big_patent 數據集的指標由於分詞和數據的變化而不可比：

wikihow 數據集包含對段落分割有用的換行符，C4 和 HugeNews 模型的 SentencePiece 分詞器無法對換行符進行編碼，從而丟失了這一信息。
我們更新了 BigPatent 數據集以保留大小寫，同時也更改了一些格式清理操作，請參考 TFDS 中的更改。

引用

@misc{zhang2019pegasus,
    title={PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization},
    author={Jingqing Zhang and Yao Zhao and Mohammad Saleh and Peter J. Liu},
    year={2019},
    eprint={1912.08777},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}