bigbird-pegasus-large-arxivオープンソースモデル - 長いシーケンスを処理し、長いドキュメントの要約タスクを効率的に完了する

ホーム

Bigbird Pegasus Large Arxiv

googleによって開発

BigBirdは疎な注意力に基づくTransformerモデルで、より長いシーケンスを処理でき、長文書要約などのタスクに適しています。

テキスト生成

Transformers

英語オープンソースライセンス:Apache-2.0 #長文要約 #疎な注意力 #科学論文処理

ダウンロード数 8,528

リリース時間 : 3/2/2022

モデル概要

BigBirdPegasusは疎な注意力に基づくTransformerモデルで、従来のTransformerの能力を拡張し、長いシーケンスのタスク、例えば科学論文の要約生成などに特に適しています。

モデル特徴

疎な注意力機構

ブロック疎な注意力機構を採用し、長さ4096のシーケンスを効率的に処理でき、計算コストは従来の注意力機構より低いです。

長いシーケンスの処理能力

特に超長いシーケンスのタスク、例えば長文書の要約や長いコンテキストの質問応答に適しています。

多タスク適応性

様々な要約生成タスク、科学論文やニュースの要約を含め、良好な性能を発揮します。

モデル能力

科学論文の要約生成

長文書の要約生成

長いコンテキストの質問応答

使用事例

学術研究

科学論文の要約生成

科学論文に対して簡潔で正確な要約を生成します。

arxivデータセットでROUGE - 1スコアが43.4702です。

ニュースメディア

ニュースの要約生成

ニュース記事に対して要約を生成します。

cnn_dailymailデータセットでROUGE - 1スコアが9.0885です。

🚀 BigBirdPegasusモデル (大規模)

BigBirdPegasusモデルは、長いシーケンスを扱うための高性能な要約モデルです。BigBirdは、通常のTransformerモデルを拡張し、疎な注意機構を用いることで、長いシーケンスを低コストで処理できます。このモデルは、長文書要約や長いコンテキストを持つ質問応答などのタスクでSOTAを達成しています。

🚀 クイックスタート

このセクションでは、BigBirdPegasusモデルの概要、使用方法、トレーニング手順、引用情報などを紹介します。

✨ 主な機能

ブロック疎な注意機構：通常の注意機構（BERTの注意機構など）ではなく、ブロック疎な注意機構を使用することで、4096までの長いシーケンスを低コストで処理できます。
長文書要約や質問応答でのSOTA：長文書要約や長いコンテキストを持つ質問応答などのタスクでSOTAを達成しています。

📦 インストール

このモデルは、Hugging Faceのtransformersライブラリを使用して簡単に利用できます。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")

# by default encoder-attention is `block_sparse` with num_random_blocks=3, block_size=64
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")

# decoder attention type can't be changed & will be "original_full"
# you can change `attention_type` (encoder only) to full attention like this:
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", attention_type="original_full")

# you can change `block_size` & `num_random_blocks` like this:
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv", block_size=16, num_random_blocks=2)

text = "Replace me by any text you'd like."
inputs = tokenizer(text, return_tensors='pt')
prediction = model.generate(**inputs)
prediction = tokenizer.batch_decode(prediction)

高度な使用法

# 高度な使用法の説明
# 例えば、異なるパラメータ設定や前処理、後処理などを行うことができます。
from transformers import BigBirdPegasusForConditionalGeneration, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("google/bigbird-pegasus-large-arxiv")
model = BigBirdPegasusForConditionalGeneration.from_pretrained("google/bigbird-pegasus-large-arxiv")

text = "This is a long text that needs to be summarized."
# 前処理
inputs = tokenizer(text, return_tensors='pt', max_length=4096, truncation=True)
# 生成
prediction = model.generate(**inputs, num_beams=4, length_penalty=2.0, max_length=256, min_length=30, no_repeat_ngram_size=3)
# 後処理
prediction = tokenizer.batch_decode(prediction, skip_special_tokens=True)

📚 ドキュメント

モデルの説明

BigBirdは、通常の注意機構（BERTの注意機構など）ではなく、ブロック疎な注意機構を使用しており、BERTと比較してはるかに低い計算コストで4096までの長いシーケンスを処理できます。このモデルは、長文書要約や長いコンテキストを持つ質問応答などの非常に長いシーケンスを扱う様々なタスクでSOTAを達成しています。

トレーニング手順

このチェックポイントは、scientific_papersのarxivデータセットで要約のためにBigBirdPegasusForConditionalGenerationをファインチューニングした後に得られたものです。

モデルの評価

このモデルは、いくつかのデータセットで評価されており、以下の表にその結果を示します。

データセット	ROUGE-1	ROUGE-2	ROUGE-L	ROUGE-LSUM	loss	gen_len
scientific_papers (pubmed)	36.0276	13.4166	21.9612	29.648	2.774355173110962	209.2537
cnn_dailymail	9.0885	1.0325	7.3182	8.1455	.nan	210.4762
xsum	4.9787	0.3527	4.3679	4.1723	.nan	230.4886
scientific_papers (arxiv)	43.4702	17.4297	26.2587	35.5587	2.1113228797912598	183.3702
samsum	3.621	0.1699	3.2016	3.3269	7.664482116699219	233.8107

🔧 技術詳細

BigBirdは、この論文で紹介され、このリポジトリで最初に公開されました。このモデルは、ブロック疎な注意機構を使用することで、長いシーケンスを低コストで処理できます。

📄 ライセンス

このモデルは、Apache 2.0ライセンスの下で公開されています。

📖 引用情報

@misc{zaheer2021big,
      title={Big Bird: Transformers for Longer Sequences}, 
      author={Manzil Zaheer and Guru Guruganesh and Avinava Dubey and Joshua Ainslie and Chris Alberti and Santiago Ontanon and Philip Pham and Anirudh Ravula and Qifan Wang and Li Yang and Amr Ahmed},
      year={2021},
      eprint={2007.14062},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}