🚀 BigBirdPegasusモデル (大規模)
BigBirdPegasusモデルは、長いシーケンスを扱うための高性能な要約モデルです。BigBirdは、通常のTransformerモデルを拡張し、疎な注意機構を用いることで、長いシーケンスを低コストで処理できます。このモデルは、長文書要約や長いコンテキストを持つ質問応答などのタスクでSOTAを達成しています。
🚀 クイックスタート
このセクションでは、BigBirdPegasusモデルの概要、使用方法、トレーニング手順、引用情報などを紹介します。
✨ 主な機能
- ブロック疎な注意機構:通常の注意機構(BERTの注意機構など)ではなく、ブロック疎な注意機構を使用することで、4096までの長いシーケンスを低コストで処理できます。
- 長文書要約や質問応答でのSOTA:長文書要約や長いコンテキストを持つ質問応答などのタスクでSOTAを達成しています。
📦 インストール
このモデルは、Hugging Faceのtransformers
ライブラリを使用して簡単に利用できます。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)
text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)
高度な使用法
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")
text = "This is a long text that needs to be summarized."
inputs = tokenizer(text, return_tensors='pt', max_length=4096, truncation=True)
prediction = model.generate(**inputs, num_beams=4, length_penalty=2.0, max_length=256, min_length=30, no_repeat_ngram_size=3)
prediction = tokenizer.batch_decode(prediction, skip_special_tokens=True)
📚 ドキュメント
モデルの説明
BigBirdは、通常の注意機構(BERTの注意機構など)ではなく、ブロック疎な注意機構を使用しており、BERTと比較してはるかに低い計算コストで4096までの長いシーケンスを処理できます。このモデルは、長文書要約や長いコンテキストを持つ質問応答などの非常に長いシーケンスを扱う様々なタスクでSOTAを達成しています。
トレーニング手順
このチェックポイントは、scientific_papersのarxivデータセットで要約のためにBigBirdPegasusForConditionalGeneration
をファインチューニングした後に得られたものです。
モデルの評価
このモデルは、いくつかのデータセットで評価されており、以下の表にその結果を示します。
データセット |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
ROUGE-LSUM |
loss |
gen_len |
scientific_papers (pubmed) |
36.0276 |
13.4166 |
21.9612 |
29.648 |
2.774355173110962 |
209.2537 |
cnn_dailymail |
9.0885 |
1.0325 |
7.3182 |
8.1455 |
.nan |
210.4762 |
xsum |
4.9787 |
0.3527 |
4.3679 |
4.1723 |
.nan |
230.4886 |
scientific_papers (arxiv) |
43.4702 |
17.4297 |
26.2587 |
35.5587 |
2.1113228797912598 |
183.3702 |
samsum |
3.621 |
0.1699 |
3.2016 |
3.3269 |
7.664482116699219 |
233.8107 |
🔧 技術詳細
BigBirdは、この論文で紹介され、このリポジトリで最初に公開されました。このモデルは、ブロック疎な注意機構を使用することで、長いシーケンスを低コストで処理できます。
📄 ライセンス
このモデルは、Apache 2.0ライセンスの下で公開されています。
📖 引用情報
@misc{zaheer2021big,
title={Big Bird: Transformers for Longer Sequences},
author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
year={2021},
eprint={2007.14062},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
免責事項
BigBirdを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。