lsg - bart - base - 16384 - mediasumオープンソースモデル - 長シーケンスを効率的に処理し、要約を簡単に生成

ホーム

Lsg Bart Base 16384 Mediasum

ccdvによって開発

LSG技術に基づくBARTモデルで、長いシーケンスの要約生成タスクに最適化されており、16384の長さの入力シーケンスをサポート

テキスト生成

Transformers

英語#長文要約 #局所疎グローバルアテンション #メディアコンテンツ要約

ダウンロード数 22

リリース時間 : 6/23/2022

モデル概要

このモデルは局所-疎-グローバルアテンション機構を採用し、MediaSumデータセットでファインチューニングされており、長文要約生成タスクに適しています

モデル特徴

長シーケンス処理能力

最大16384トークンの入力シーケンスを処理可能で、長文書要約タスクに適しています

混合アテンション機構

局所、疎、グローバルアテンションを組み合わせ、長距離依存関係を効果的に捕捉

効率的なファインチューニング

1エポック以内でファインチューニングを完了し、高性能を維持しながら計算リソースを節約

モデル能力

長文要約生成

テキスト圧縮

キー情報抽出

使用事例

メディアコンテンツ処理

ニュース記事要約

ニュース記事の核心内容を自動生成

Rouge-Lスコア31.81

インタビュー記録要約

長文インタビュー記録からキーポイントを抽出

Rouge-1スコア35.31

🚀 ccdv/lsg-bart-base-16384-mediasum

このモデルは、ccdv/lsg-bart-base-4096-mediasum を ccdv/mediasum roberta_prepended mediasum データセットでファインチューニングしたバージョンです。このモデルは16384の長いシーケンスを扱うように変換され、1エポックの間で適切にファインチューニングされています。

🚀 クイックスタート

# オリジナルのコードとコメントを保持
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
  text, 
  truncation=True, 
  max_length=64, 
  no_repeat_ngram_size=7,
  num_beams=2,
  early_stopping=True
  )

✨ 主な機能

このモデルは、Local-Sparse-Globalアテンションを利用して長いシーケンスを扱うことができます。 attn

モデルには約1億4500万個のパラメータがあり（エンコーダ6層 - デコーダ6層）、ccdv/lsg-bart-base-4096-mediasum からウォームスタートされ、長いシーケンスを扱うように変換（エンコーダのみ）され、ファインチューニングされています。

テストセットでの結果

長さ	グローバルトークン	ファインチューニング	ブロックサイズ	接続数	R1	R2	RL	RLsum
16384	64	完全	256	768	35.31	18.35	31.81	32.47
16384	1	完全	256	768	35.21	18.20	31.73	32.37
16384	64	グローバルのみ	256	768	35.22	18.08	31.54	32.21
16384	1	なし	256	768	35.17	18.13	31.54	32.20