🚀 BigBirdPegasus模型(大型)
BigBirdPegasus模型是基于稀疏注意力机制的Transformer模型,它将基于Transformer的模型(如BERT)扩展到更长的序列处理中。此外,BigBird还从理论上阐释了稀疏模型所能处理的完整Transformer的能力。该模型在处理长文档摘要、长上下文问答等涉及长序列的任务中表现出色。
🚀 快速开始
模型简介
BigBird采用块稀疏注意力机制,而非普通的注意力机制(如BERT的注意力机制)。与BERT相比,它能够以更低的计算成本处理长度达4096的序列。在各种涉及长序列的任务中,如长文档摘要、长上下文问答等,该模型已达到了当前的最优水平。
使用方法
以下是如何在PyTorch中使用该模型获取给定文本特征的示例:
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)
text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)
训练过程
此检查点是在 scientific_papers 中的 arxiv 数据集上对 BigBirdPegasusForConditionalGeneration
进行摘要生成微调后得到的。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
BigBirdPegasus模型(大型) |
训练数据 |
scientific_papers(arxiv数据集) |
评估指标
该模型在多个数据集上进行了评估,以下是具体的评估指标:
scientific_papers(pubmed)
指标 |
值 |
ROUGE-1 |
36.0276 |
ROUGE-2 |
13.4166 |
ROUGE-L |
21.9612 |
ROUGE-LSUM |
29.648 |
loss |
2.774355173110962 |
meteor |
0.2824 |
gen_len |
209.2537 |
cnn_dailymail
指标 |
值 |
ROUGE-1 |
9.0885 |
ROUGE-2 |
1.0325 |
ROUGE-L |
7.3182 |
ROUGE-LSUM |
8.1455 |
loss |
.nan |
gen_len |
210.4762 |
xsum
指标 |
值 |
ROUGE-1 |
4.9787 |
ROUGE-2 |
0.3527 |
ROUGE-L |
4.3679 |
ROUGE-LSUM |
4.1723 |
loss |
.nan |
gen_len |
230.4886 |
scientific_papers(arxiv)
指标 |
值 |
ROUGE-1 |
43.4702 |
ROUGE-2 |
17.4297 |
ROUGE-L |
26.2587 |
ROUGE-LSUM |
35.5587 |
loss |
2.1113228797912598 |
gen_len |
183.3702 |
samsum
指标 |
值 |
ROUGE-1 |
3.621 |
ROUGE-2 |
0.1699 |
ROUGE-L |
3.2016 |
ROUGE-LSUM |
3.3269 |
loss |
7.664482116699219 |
gen_len |
233.8107 |
🔧 技术细节
BigBird模型的相关研究在论文 Big Bird: Transformers for Longer Sequences 中进行了详细阐述,该模型最初发布于 此仓库。
📄 许可证
本模型采用Apache-2.0许可证。
📖 引用信息
如果你在研究中使用了该模型,请引用以下论文:
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
免责声明
发布BigBird的团队并未为此模型撰写模型卡片,此模型卡片由Hugging Face团队编写。