lsg-bart-base-4096-multinews開源模型 - 支持長文本輸入，高效完成摘要任務

首頁

Lsg Bart Base 4096 Multinews

由ccdv開發

基於LSG技術的BART-base模型，專為長文本摘要任務設計，支持4096長度的輸入序列

文本生成

Transformers

英語#長文本摘要 #局部稀疏全局注意力 #多文檔摘要

下載量 26

發布時間 : 5/25/2022

模型概述

該模型採用局部-稀疏-全局注意力機制處理長序列，在multi_news數據集上微調，適用於多文檔摘要生成任務

模型特點

長序列處理能力

支持最長4096 tokens的輸入序列，採用局部-稀疏-全局注意力機制高效處理長文本

多文檔摘要優化

在multi_news數據集上微調，專門針對多文檔摘要場景優化

靈活注意力配置

支持多種稀疏注意力模式（池化/跨步/塊跨步/歸一化/LSH），可根據需求平衡性能與資源消耗

模型能力

長文本摘要生成

多文檔信息整合

英文文本處理

使用案例

新聞摘要

多源新聞摘要

從多個相關新聞文章中生成統一摘要

在multi_news測試集上達到R1 47.10/R2 18.94/RL 25.22

文檔整理

長文檔摘要

對技術文檔、研究報告等長文本生成精簡摘要

🚀 ccdv/lsg-bart-base-4096-multinews

該模型是基於ccdv/lsg-bart-base-4096在multi_news默認數據集上微調得到的，用於文本摘要任務。

🚀 快速開始

環境要求

Transformers >= 4.36.1
該模型依賴自定義建模文件，你需要添加trust_remote_code=True
詳情請見 #13467

代碼示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-4096-multinews", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-4096-multinews", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
  text, 
  truncation=True, 
  max_length=64, 
  no_repeat_ngram_size=7,
  num_beams=2,
  early_stopping=True
  )

✨ 主要特性

該模型是 ccdv/lsg-bart-base-4096 在 multi_news default 數據集上的微調版本。
模型採用 Local-Sparse-Global 注意力機制處理長序列。
模型約有 1.45 億個參數（6 個編碼器層 - 6 個解碼器層），從 BART-base 預熱啟動，轉換為處理長序列（僅編碼器）並進行微調。

📚 詳細文檔

測試集結果

該模型在測試集上取得了以下結果：

較大塊大小

長度	稀疏類型	塊大小	稀疏度	連接數	R1	R2	RL	RLsum
4096	Local	256	0	768	47.10	18.94	25.22	43.13
4096	Local	128	0	384	46.73	18.79	25.13	42.76
4096	Pooling	128	4	644	46.83	18.87	25.23	42.86
4096	Stride	128	4	644	46.83	18.68	24.98	42.88
4096	Block Stride	128	4	644	46.83	18.72	25.06	42.88
4096	Norm	128	4	644	46.74	18.60	24.93	42.79
4096	LSH	128	4	644	46.74	18.82	25.19	42.77

較小塊大小（資源需求較低）

長度	稀疏類型	塊大小	稀疏度	連接數	R1	R2	RL	RLsum
4096	Local	64	0	192	45.61	17.91	24.54	41.65
4096	Local	32	0	96	43.50	16.36	23.45	39.61
4096	Pooling	32	4	160	44.77	17.31	24.16	40.86
4096	Stride	32	4	160	45.29	17.81	24.45	41.40
4096	Block Stride	32	4	160	45.39	17.86	24.51	41.43
4096	Norm	32	4	160	44.65	17.25	24.09	40.76
4096	LSH	32	4	160	44.44	17.20	24.00	40.57

模型描述

該模型依靠 Local-Sparse-Global 注意力機制來處理長序列： attn

模型約有 1.45 億個參數（6 個編碼器層 - 6 個解碼器層）。模型從 BART-base 預熱啟動，轉換為處理長序列（僅編碼器）並進行微調。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：8e-05
訓練批次大小：8
隨機種子：42
梯度累積步數：4
總訓練批次大小：32
優化器：Adam（betas=(0.9,0.999)，epsilon=1e-08）
學習率調度器類型：線性
學習率調度器預熱比例：0.1
訓練輪數：12.0

生成超參數

生成過程中使用了以下超參數：

數據集名稱：multi_news
數據集配置名稱：default
評估批次大小：8
評估樣本數：5622
提前停止：True
忽略填充標記進行損失計算：True
長度懲罰：2.0
最大長度：320
最小長度：32
束搜索數量：5
不重複 n-gram 大小：None
隨機種子：123

框架版本

Transformers 4.18.0
Pytorch 1.10.1+cu102
Datasets 2.1.0
Tokenizers 0.11.6