lsg - bart - base - 16384 - mediasum開源模型 - 高效處理長序列，輕鬆生成摘要

首頁

Lsg Bart Base 16384 Mediasum

由ccdv開發

基於LSG技術的BART模型，專為處理長序列摘要生成任務優化，支持16384長度的輸入序列

文本生成

Transformers

英語#長文本摘要 #局部稀疏全局注意力 #媒體內容摘要

下載量 22

發布時間 : 6/23/2022

模型概述

該模型採用局部-稀疏-全局注意力機制，在MediaSum數據集上微調，適用於長文本摘要生成任務

模型特點

長序列處理能力

支持處理長達16384個token的輸入序列，適合長文檔摘要任務

混合注意力機制

結合局部、稀疏和全局注意力，有效捕捉長距離依賴關係

高效微調

在1個epoch內完成微調，保持高性能的同時節省計算資源

模型能力

長文本摘要生成

文本壓縮

關鍵信息提取

使用案例

媒體內容處理

新聞文章摘要

自動生成新聞文章的核心內容摘要

Rouge-L得分31.81

訪談記錄總結

從長篇訪談記錄中提取關鍵對話要點

Rouge-1得分35.31

🚀 ccdv/lsg-bart-base-16384-mediasum

該模型是用於文本摘要的微調模型，基於特定數據集訓練，能處理長序列文本，在測試集上有較好表現。

🚀 快速開始

Transformers >= 4.36.1 該模型依賴自定義建模文件，你需要添加 trust_remote_code=True 請參閱 #13467

LSG 的 ArXiv 論文。 Github/轉換腳本可在這個鏈接找到。

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
  text, 
  truncation=True, 
  max_length=64, 
  no_repeat_ngram_size=7,
  num_beams=2,
  early_stopping=True
  )

✨ 主要特性

該模型是 ccdv/lsg-bart-base-4096-mediasum 在 ccdv/mediasum roberta_prepended mediasum 數據集上的微調版本。模型經過轉換以處理 16384 的長序列，並相應地進行了 1 個 epoch 的微調。它在測試集上取得了以下結果：

長度	全局令牌	微調方式	塊大小	連接數	R1	R2	RL	RLsum
16384	64	全量微調	256	768	35.31	18.35	31.81	32.47
16384	1	全量微調	256	768	35.21	18.20	31.73	32.37
16384	64	僅全局微調	256	768	35.22	18.08	31.54	32.21
16384	1	無微調	256	768	35.17	18.13	31.54	32.20