bigbird-pegasus-large-arxiv開源模型 - 處理長序列，高效完成長文檔摘要任務

首頁

Bigbird Pegasus Large Arxiv

由google開發

BigBird是一種基於稀疏注意力的Transformer模型，能夠處理更長的序列，適用於長文檔摘要等任務。

文本生成

Transformers

英語開源協議:Apache-2.0 #長文本摘要 #稀疏注意力 #科學論文處理

下載量 8,528

發布時間 : 3/2/2022

模型概述

BigBirdPegasus是基於稀疏注意力的Transformer模型，擴展了傳統Transformer的能力，特別適合處理長序列任務，如科學論文摘要生成。

模型特點

稀疏注意力機制

採用塊稀疏注意力機制，能夠高效處理長達4096的序列，計算成本低於傳統注意力機制。

長序列處理能力

特別適合處理超長序列任務，如長文檔摘要和長上下文問答。

多任務適應

在多種摘要生成任務上表現良好，包括科學論文和新聞摘要。

模型能力

科學論文摘要生成

長文檔摘要生成

長上下文問答

使用案例

學術研究

科學論文摘要生成

為科學論文生成簡潔準確的摘要。

在arxiv數據集上ROUGE-1得分43.4702。

新聞媒體

新聞摘要生成

為新聞文章生成摘要。

在cnn_dailymail數據集上ROUGE-1得分9.0885。

🚀 BigBirdPegasus模型（大型）

BigBirdPegasus模型是基於稀疏注意力機制的Transformer模型，它將基於Transformer的模型（如BERT）擴展到更長的序列處理中。此外，BigBird還從理論上闡釋了稀疏模型所能處理的完整Transformer的能力。該模型在處理長文檔摘要、長上下文問答等涉及長序列的任務中表現出色。

🚀 快速開始

模型簡介

BigBird採用塊稀疏注意力機制，而非普通的注意力機制（如BERT的注意力機制）。與BERT相比，它能夠以更低的計算成本處理長度達4096的序列。在各種涉及長序列的任務中，如長文檔摘要、長上下文問答等，該模型已達到了當前的最優水平。

使用方法

以下是如何在PyTorch中使用該模型獲取給定文本特徵的示例：

from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")

# 默認情況下，編碼器注意力為 `block_sparse`，num_random_blocks=3，block_size=64
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")

# 解碼器注意力類型不能更改，將為 "original_full"
# 你可以像這樣將 `attention_type`（僅編碼器）更改為全注意力：
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")

# 你可以像這樣更改 `block_size` 和 `num_random_blocks`：
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)

text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)

訓練過程

此檢查點是在 scientific_papers 中的 arxiv 數據集上對 BigBirdPegasusForConditionalGeneration 進行摘要生成微調後得到的。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	BigBirdPegasus模型（大型）
訓練數據	scientific_papers（arxiv數據集）

評估指標

該模型在多個數據集上進行了評估，以下是具體的評估指標：

scientific_papers（pubmed）

指標	值
ROUGE-1	36.0276
ROUGE-2	13.4166
ROUGE-L	21.9612
ROUGE-LSUM	29.648
loss	2.774355173110962
meteor	0.2824
gen_len	209.2537

cnn_dailymail

指標	值
ROUGE-1	9.0885
ROUGE-2	1.0325
ROUGE-L	7.3182
ROUGE-LSUM	8.1455
loss	.nan
gen_len	210.4762

xsum

指標	值
ROUGE-1	4.9787
ROUGE-2	0.3527
ROUGE-L	4.3679
ROUGE-LSUM	4.1723
loss	.nan
gen_len	230.4886

scientific_papers（arxiv）

指標	值
ROUGE-1	43.4702
ROUGE-2	17.4297
ROUGE-L	26.2587
ROUGE-LSUM	35.5587
loss	2.1113228797912598
gen_len	183.3702

samsum

指標	值
ROUGE-1	3.621
ROUGE-2	0.1699
ROUGE-L	3.2016
ROUGE-LSUM	3.3269
loss	7.664482116699219
gen_len	233.8107

🔧 技術細節

BigBird模型的相關研究在論文 Big Bird: Transformers for Longer Sequences 中進行了詳細闡述，該模型最初發佈於此倉庫。

📄 許可證

本模型採用Apache-2.0許可證。

📖 引用信息

如果你在研究中使用了該模型，請引用以下論文：

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}