🚀 BigBirdPegasusモデル (大規模)
BigBirdは、スパースアテンションに基づくトランスフォーマーで、BERTなどのトランスフォーマーベースのモデルをはるかに長いシーケンスに拡張します。さらに、BigBirdは、スパースモデルが扱える完全なトランスフォーマーの能力に関する理論的理解を伴っています。
BigBirdはこの論文で紹介され、最初はこのリポジトリで公開されました。
免責事項: BigBirdを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。
🚀 クイックスタート
BigBirdは、通常のアテンション(つまりBERTのアテンション)ではなくブロックスパースアテンションに依存しており、BERTと比較してはるかに低い計算コストで最大4096の長さのシーケンスを処理することができます。長文書要約や長いコンテキストを伴う質問応答など、非常に長いシーケンスを扱うさまざまなタスクでSOTAを達成しています。
✨ 主な機能
- ブロックスパースアテンションを使用し、低コストで長いシーケンスを処理できます。
- 長文書要約や質問応答などのタスクでSOTAを達成しています。
💻 使用例
基本的な使用法
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-pubmed")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed", attention_type="original_full")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-pubmed", block_size=16, num_random_blocks=2)
text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)
🔧 技術詳細
このチェックポイントは、scientific_papersのpubmedデータセットで要約のためにBigBirdPegasusForConditionalGeneration
をファインチューニングした後に得られました。
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
📚 ドキュメント
BibTeXエントリと引用情報
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
メトリクス情報
プロパティ |
詳細 |
モデルタイプ |
BigBirdPegasus (大規模) |
訓練データ |
scientific_papers (pubmed, arxiv) |
メトリクス結果
pubmedデータセット
メトリクス名 |
タイプ |
値 |
ROUGE-1 |
rouge |
40.8966 |
ROUGE-2 |
rouge |
18.1161 |
ROUGE-L |
rouge |
26.1743 |
ROUGE-LSUM |
rouge |
34.2773 |
loss |
loss |
2.1707184314727783 |
meteor |
meteor |
0.3513 |
gen_len |
gen_len |
221.2531 |
arxivデータセット
メトリクス名 |
タイプ |
値 |
ROUGE-1 |
rouge |
40.3815 |
ROUGE-2 |
rouge |
14.374 |
ROUGE-L |
rouge |
23.4773 |
ROUGE-LSUM |
rouge |
33.772 |
loss |
loss |
3.235051393508911 |
gen_len |
gen_len |
186.2003 |