🚀 BigBirdPegasus模型(大型)
BigBirdPegasus模型是基於稀疏注意力機制的Transformer模型,它將基於Transformer的模型(如BERT)擴展到更長的序列處理中。此外,BigBird還從理論上闡釋了稀疏模型所能處理的完整Transformer的能力。該模型在處理長文檔摘要、長上下文問答等涉及長序列的任務中表現出色。
🚀 快速開始
模型簡介
BigBird採用塊稀疏注意力機制,而非普通的注意力機制(如BERT的注意力機制)。與BERT相比,它能夠以更低的計算成本處理長度達4096的序列。在各種涉及長序列的任務中,如長文檔摘要、長上下文問答等,該模型已達到了當前的最優水平。
使用方法
以下是如何在PyTorch中使用該模型獲取給定文本特徵的示例:
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)
text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)
訓練過程
此檢查點是在 scientific_papers 中的 arxiv 數據集上對 BigBirdPegasusForConditionalGeneration
進行摘要生成微調後得到的。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
BigBirdPegasus模型(大型) |
訓練數據 |
scientific_papers(arxiv數據集) |
評估指標
該模型在多個數據集上進行了評估,以下是具體的評估指標:
scientific_papers(pubmed)
指標 |
值 |
ROUGE-1 |
36.0276 |
ROUGE-2 |
13.4166 |
ROUGE-L |
21.9612 |
ROUGE-LSUM |
29.648 |
loss |
2.774355173110962 |
meteor |
0.2824 |
gen_len |
209.2537 |
cnn_dailymail
指標 |
值 |
ROUGE-1 |
9.0885 |
ROUGE-2 |
1.0325 |
ROUGE-L |
7.3182 |
ROUGE-LSUM |
8.1455 |
loss |
.nan |
gen_len |
210.4762 |
xsum
指標 |
值 |
ROUGE-1 |
4.9787 |
ROUGE-2 |
0.3527 |
ROUGE-L |
4.3679 |
ROUGE-LSUM |
4.1723 |
loss |
.nan |
gen_len |
230.4886 |
scientific_papers(arxiv)
指標 |
值 |
ROUGE-1 |
43.4702 |
ROUGE-2 |
17.4297 |
ROUGE-L |
26.2587 |
ROUGE-LSUM |
35.5587 |
loss |
2.1113228797912598 |
gen_len |
183.3702 |
samsum
指標 |
值 |
ROUGE-1 |
3.621 |
ROUGE-2 |
0.1699 |
ROUGE-L |
3.2016 |
ROUGE-LSUM |
3.3269 |
loss |
7.664482116699219 |
gen_len |
233.8107 |
🔧 技術細節
BigBird模型的相關研究在論文 Big Bird: Transformers for Longer Sequences 中進行了詳細闡述,該模型最初發佈於 此倉庫。
📄 許可證
本模型採用Apache-2.0許可證。
📖 引用信息
如果你在研究中使用了該模型,請引用以下論文:
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
免責聲明
發佈BigBird的團隊並未為此模型撰寫模型卡片,此模型卡片由Hugging Face團隊編寫。