bigbird-pegasus-large-pubmed開源模型 - 免費部署實現長文檔高效摘要處理

首頁

Bigbird Pegasus Large Pubmed

由google開發

BigBirdPegasus 是一種基於稀疏注意力的 Transformer 模型，能夠處理更長的序列，特別適用於長文檔摘要任務。

文本生成

Transformers

英語開源協議:Apache-2.0 #長文本摘要 #稀疏注意力 #科學論文處理

下載量 2,031

發布時間 : 3/2/2022

模型概述

BigBirdPegasus 是一種基於稀疏注意力的 Transformer 模型，擴展了傳統 Transformer 的能力，能夠高效處理長達 4096 的序列。它在長文檔摘要等任務中表現出色。

模型特點

稀疏注意力機制

使用塊稀疏注意力機制，顯著降低長序列處理的計算成本。

長序列處理能力

能夠高效處理長達 4096 的序列，適合長文檔任務。

高性能摘要生成

在科學論文摘要生成任務中取得優異的 ROUGE 分數。

模型能力

長文檔摘要生成

科學論文摘要生成

使用案例

學術研究

PubMed 論文摘要生成

為 PubMed 科學論文生成簡潔準確的摘要

ROUGE-1 得分 40.8966，ROUGE-2 得分 18.1161

arXiv 論文摘要生成

為 arXiv 科學論文生成摘要

ROUGE-1 得分 40.3815，ROUGE-2 得分 14.374

🚀 大飛鳥飛馬模型（大尺寸）

大飛鳥飛馬模型是基於稀疏注意力機制的Transformer模型，它將基於Transformer的模型（如BERT）擴展到更長的序列處理。此外，大飛鳥模型還從理論上闡釋了稀疏模型所能處理的完整Transformer的能力。

🚀 快速開始

大飛鳥模型依賴於塊稀疏注意力機制，而非普通的注意力機制（如BERT的注意力機制），與BERT相比，它能夠以更低的計算成本處理長度達4096的序列。該模型在各種涉及長序列的任務中取得了最優結果，例如長文檔摘要、長上下文問答等。

✨ 主要特性

基於塊稀疏注意力機制，可處理長序列。
計算成本相較於BERT更低。
在長文檔摘要、長上下文問答等任務中達到了最優效果。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-pubmed")

# by default encoder-attention is `block_sparse` with num_random_blocks=3, block_size=64
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed")

# decoder attention type can't be changed & will be "original_full"
# you can change `attention_type` (encoder only) to full attention like this:
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed", attention_type="original_full")

# you can change `block_size` & `num_random_blocks` like this:
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed", block_size=16, num_random_blocks=2)

text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)

📚 詳細文檔

模型描述

大飛鳥模型依賴於塊稀疏注意力機制，而非普通的注意力機制（即BERT的注意力機制），與BERT相比，它能夠以更低的計算成本處理長度達4096的序列。該模型在各種涉及長序列的任務中取得了最優結果，例如長文檔摘要、長上下文問答等。

訓練過程

此檢查點是在科學論文中的 pubmed數據集 上對 BigBirdPegasusForConditionalGeneration 進行 摘要任務 微調後得到的。

引用信息

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

數據集和指標

屬性	詳情
模型類型	大飛鳥飛馬模型（大尺寸）
訓練數據	來自科學論文數據集的pubmed數據集
任務類型	摘要任務
評估數據集	scientific_papers（pubmed和arxiv配置）
ROUGE - 1（pubmed）	40.8966
ROUGE - 2（pubmed）	18.1161
ROUGE - L（pubmed）	26.1743
ROUGE - LSUM（pubmed）	34.2773
損失（pubmed）	2.1707184314727783
流星指標（pubmed）	0.3513
生成長度（pubmed）	221.2531
ROUGE - 1（arxiv）	40.3815
ROUGE - 2（arxiv）	14.374
ROUGE - L（arxiv）	23.4773
ROUGE - LSUM（arxiv）	33.772
損失（arxiv）	3.235051393508911
生成長度（arxiv）	186.2003