lsg-bart-base-4096-wcepオープンソース長文要約モデル - 4096トークンの長シーケンス処理をサポート

ホーム

Lsg Bart Base 4096 Wcep

ccdvによって開発

LSG-BARTアーキテクチャに基づく長文要約生成モデルで、WCEP-10データセットでファインチューニングされ、4096トークンの長いシーケンス処理をサポート

テキスト生成

Transformers

英語#長文要約生成 #局所的-疎-グローバルアテンション #4096コンテキストウィンドウ

ダウンロード数 27

リリース時間 : 5/25/2022

モデル概要

このモデルは局所的-疎-グローバルアテンション機構を使用して長いシーケンスを処理し、長文要約生成タスクに適しています。BART-baseアーキテクチャをベースに改造され、長いドキュメントの効率的な処理をサポートします。

モデル特徴

長いシーケンス処理能力

4096トークンの長いテキスト処理をサポートし、局所的-疎-グローバルアテンション機構を通じて効率的な計算を実現

多様な疎アテンションモード

局所的、プーリング、ストライド、ブロックストライド、正規化、LSHなどの多様な疎アテンション設定オプションを提供

リソース効率最適化

ブロックサイズと疎度を調整することでパフォーマンスとリソース消費のバランスを取ることが可能

モデル能力

長文要約生成

複数ドキュメント要約生成

英語テキスト処理

使用事例

テキスト要約

ニュース記事の要約

長いニュース記事に対して簡潔な要約を生成

WCEP-10テストセットでROUGE-1スコア46.02を達成

研究報告書の濃縮

長い研究報告書からキー情報を抽出

4096トークンの長いドキュメント処理能力をサポート

🚀 ccdv/lsg - bart - base - 4096 - wcep

このモデルは、[ccdv/WCEP - 10 roberta](https://huggingface.co/datasets/ccdv/WCEP - 10)データセットで[ccdv/lsg - bart - base - 4096](https://huggingface.co/ccdv/lsg - bart - base - 4096)をファインチューニングしたバージョンです。テストセットでは以下の結果を達成しています。

🚀 クイックスタート

Transformers >= 4.36.1 このモデルはカスタムモデリングファイルに依存しています。trust_remote_code = Trueを追加する必要があります 詳細は#13467を参照してください

LSG ArXivの論文があります。 Githubの変換スクリプトはこの[リンク](https://github.com/ccdv - ai/convert_checkpoint_to_lsg)から入手できます。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-4096-wcep", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-4096-wcep", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(text, truncation=True, max_length=64, no_repeat_ngram_size=7)

✨ 主な機能

このモデルは、Local - Sparse - Globalアテンションを利用して長いシーケンスを処理します。 attn

モデルは約1億4500万個のパラメータ（エンコーダ6層 - デコーダ6層）を持っています。モデルはBART - baseからウォームスタートされ、長いシーケンスを処理できるように変換（エンコーダのみ）され、ファインチューニングされています。

📚 ドキュメント

テストセットでの結果

通常のブロックサイズ

長さ	スパースタイプ	ブロックサイズ	スパース性	接続数	R1	R2	RL	RLsum
4096	Local	256	0	768	46.02	24.23	37.38	38.72
4096	Local	128	0	384	45.43	23.86	36.94	38.30
4096	Pooling	128	4	644	45.36	23.61	36.75	38.06
4096	Stride	128	4	644	45.87	24.31	37.41	38.70
4096	Block Stride	128	4	644	45.78	24.16	37.20	38.48
4096	Norm	128	4	644	45.34	23.39	36.47	37.78
4096	LSH	128	4	644	45.15	23.53	36.74	38.02

小さいブロックサイズ（低リソース）

長さ	スパースタイプ	ブロックサイズ	スパース性	接続数	R1	R2	RL	RLsum
4096	Local	64	0	192	44.48	22.98	36.20	37.52
4096	Local	32	0	96	43.60	22.17	35.61	36.66
4096	Pooling	32	4	160	43.91	22.41	35.80	36.92
4096	Stride	32	4	160	44.62	23.11	36.32	37.53
4096	Block Stride	32	4	160	44.47	23.02	36.28	37.46
4096	Norm	32	4	160	44.45	23.03	36.10	37.33
4096	LSH	32	4	160	43.87	22.50	35.75	36.93

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

学習率: 8e - 05
トレーニングバッチサイズ: 8
シード: 42
勾配累積ステップ数: 4
総トレーニングバッチサイズ: 32
オプティマイザ: Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップ比率: 0.1
エポック数: 10.0

生成ハイパーパラメータ

生成中に以下のハイパーパラメータが使用されました。

データセット名: ccdv/WCEP - 10
データセット設定名: roberta
評価バッチサイズ: 8
評価サンプル数: 1022
早期終了: True
損失計算時にパディングトークンを無視: True
長さペナルティ: 2.0
最大長: 64
最小長: 0
ビーム数: 5
繰り返しNGramサイズ: None
シード: 123

フレームワークバージョン

Transformers 4.18.0
Pytorch 1.10.1+cu102
Datasets 2.1.0
Tokenizers 0.11.6

🔧 技術詳細

このモデルは、長いシーケンスを効率的に処理するために、Local - Sparse - Globalアテンションを採用しています。エンコーダとデコーダの構造は、BART - baseを元にしていますが、長いシーケンスに対応できるように調整されています。トレーニングと生成の際に使用されるハイパーパラメータは、モデルの性能を最適化するために選択されています。