lsg-bart-base-4096-wcep開源長文本摘要模型 - 支持4096 token長序列處理

首頁

Lsg Bart Base 4096 Wcep

由ccdv開發

基於LSG-BART架構的長文本摘要生成模型，在WCEP-10數據集上微調，支持4096個token的長序列處理

文本生成

Transformers

英語#長文本摘要生成 #局部-稀疏-全局注意力 #4096上下文窗口

下載量 27

發布時間 : 5/25/2022

模型概述

該模型採用局部-稀疏-全局注意力機制處理長序列，適用於長文本摘要生成任務。基於BART-base架構改造，支持高效處理長文檔。

模型特點

長序列處理能力

支持4096個token的長文本處理，通過局部-稀疏-全局注意力機制實現高效計算

多種稀疏注意力模式

提供局部、池化、跨步、塊跨步、歸一化和LSH等多種稀疏注意力配置選項

資源效率優化

支持通過調整塊大小和稀疏度來平衡性能和資源消耗

模型能力

長文本摘要生成

多文檔摘要生成

英語文本處理

使用案例

文本摘要

新聞文章摘要

為長新聞文章生成簡潔摘要

在WCEP-10測試集上ROUGE-1得分達46.02

研究報告濃縮

從長篇研究報告中提取關鍵信息

支持4096 token的長文檔處理能力

🚀 ccdv/lsg-bart-base-4096-wcep

本模型是一個基於自然語言處理的模型，它在特定數據集上對基礎模型進行了微調，能夠在長序列處理任務中取得不錯的效果，可用於文本摘要等相關任務。

🚀 快速開始

本模型依賴於自定義建模文件，你需要添加 trust_remote_code=True。詳情請見 #13467。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-4096-wcep", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-4096-wcep", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(text, truncation=True, max_length=64, no_repeat_ngram_size=7)

✨ 主要特性

該模型是 ccdv/lsg-bart-base-4096 在 ccdv/WCEP-10 roberta 數據集上的微調版本。
模型依賴於 Local-Sparse-Global 注意力機制來處理長序列。
模型約有 1.45 億個參數（6 個編碼器層 - 6 個解碼器層），從 BART-base 進行預熱啟動，轉換為處理長序列（僅編碼器）並進行微調。

📚 詳細文檔

測試集結果

該模型在測試集上取得了以下結果：

較大塊大小

長度	稀疏類型	塊大小	稀疏度	連接數	R1	R2	RL	RLsum
4096	局部	256	0	768	46.02	24.23	37.38	38.72
4096	局部	128	0	384	45.43	23.86	36.94	38.30
4096	池化	128	4	644	45.36	23.61	36.75	38.06
4096	步長	128	4	644	45.87	24.31	37.41	38.70
4096	塊步長	128	4	644	45.78	24.16	37.20	38.48
4096	歸一化	128	4	644	45.34	23.39	36.47	37.78
4096	LSH	128	4	644	45.15	23.53	36.74	38.02

較小塊大小（資源需求較低）

長度	稀疏類型	塊大小	稀疏度	連接數	R1	R2	RL	RLsum
4096	局部	64	0	192	44.48	22.98	36.20	37.52
4096	局部	32	0	96	43.60	22.17	35.61	36.66
4096	池化	32	4	160	43.91	22.41	35.80	36.92
4096	步長	32	4	160	44.62	23.11	36.32	37.53
4096	塊步長	32	4	160	44.47	23.02	36.28	37.46
4096	歸一化	32	4	160	44.45	23.03	36.10	37.33
4096	LSH	32	4	160	43.87	22.50	35.75	36.93

模型描述

模型依賴於 Local-Sparse-Global 注意力機制來處理長序列： attn

模型約有 1.45 億個參數（6 個編碼器層 - 6 個解碼器層）。該模型從 BART-base 進行預熱啟動，轉換為處理長序列（僅編碼器）並進行微調。

訓練和評估數據

更多信息待補充。

訓練過程

訓練超參數

訓練期間使用了以下超參數：

學習率：8e - 05
訓練批次大小：8
隨機種子：42
梯度累積步數：4
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器預熱比例：0.1
訓練輪數：10.0

生成超參數

生成期間使用了以下超參數：

數據集名稱：ccdv/WCEP-10
數據集配置名稱：roberta
評估批次大小：8
評估樣本數：1022
提前停止：True
忽略填充標記以計算損失：True
長度懲罰：2.0
最大長度：64
最小長度：0
束搜索寬度：5
無重複 n - 元語法大小：None
隨機種子：123

框架版本

Transformers 4.18.0
Pytorch 1.10.1+cu102
Datasets 2.1.0
Tokenizers 0.11.6