lsg-bart-base-4096-wcep开源长文本摘要模型 - 支持4096 token长序列处理

首页

Lsg Bart Base 4096 Wcep

由 ccdv 开发

基于LSG-BART架构的长文本摘要生成模型，在WCEP-10数据集上微调，支持4096个token的长序列处理

文本生成

Transformers

英语#长文本摘要生成 #局部-稀疏-全局注意力 #4096上下文窗口

下载量 27

发布时间 : 5/25/2022

模型简介

该模型采用局部-稀疏-全局注意力机制处理长序列，适用于长文本摘要生成任务。基于BART-base架构改造，支持高效处理长文档。

模型特点

长序列处理能力

支持4096个token的长文本处理，通过局部-稀疏-全局注意力机制实现高效计算

多种稀疏注意力模式

提供局部、池化、跨步、块跨步、归一化和LSH等多种稀疏注意力配置选项

资源效率优化

支持通过调整块大小和稀疏度来平衡性能和资源消耗

模型能力

长文本摘要生成

多文档摘要生成

英语文本处理

使用案例

文本摘要

新闻文章摘要

为长新闻文章生成简洁摘要

在WCEP-10测试集上ROUGE-1得分达46.02

研究报告浓缩

从长篇研究报告中提取关键信息

支持4096 token的长文档处理能力

🚀 ccdv/lsg-bart-base-4096-wcep

本模型是一个基于自然语言处理的模型，它在特定数据集上对基础模型进行了微调，能够在长序列处理任务中取得不错的效果，可用于文本摘要等相关任务。

🚀 快速开始

本模型依赖于自定义建模文件，你需要添加 trust_remote_code=True。详情请见 #13467。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-4096-wcep", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-4096-wcep", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(text, truncation=True, max_length=64, no_repeat_ngram_size=7)

✨ 主要特性

该模型是 ccdv/lsg-bart-base-4096 在 ccdv/WCEP-10 roberta 数据集上的微调版本。
模型依赖于 Local-Sparse-Global 注意力机制来处理长序列。
模型约有 1.45 亿个参数（6 个编码器层 - 6 个解码器层），从 BART-base 进行预热启动，转换为处理长序列（仅编码器）并进行微调。

📚 详细文档

测试集结果

该模型在测试集上取得了以下结果：

较大块大小

长度	稀疏类型	块大小	稀疏度	连接数	R1	R2	RL	RLsum
4096	局部	256	0	768	46.02	24.23	37.38	38.72
4096	局部	128	0	384	45.43	23.86	36.94	38.30
4096	池化	128	4	644	45.36	23.61	36.75	38.06
4096	步长	128	4	644	45.87	24.31	37.41	38.70
4096	块步长	128	4	644	45.78	24.16	37.20	38.48
4096	归一化	128	4	644	45.34	23.39	36.47	37.78
4096	LSH	128	4	644	45.15	23.53	36.74	38.02

较小块大小（资源需求较低）

长度	稀疏类型	块大小	稀疏度	连接数	R1	R2	RL	RLsum
4096	局部	64	0	192	44.48	22.98	36.20	37.52
4096	局部	32	0	96	43.60	22.17	35.61	36.66
4096	池化	32	4	160	43.91	22.41	35.80	36.92
4096	步长	32	4	160	44.62	23.11	36.32	37.53
4096	块步长	32	4	160	44.47	23.02	36.28	37.46
4096	归一化	32	4	160	44.45	23.03	36.10	37.33
4096	LSH	32	4	160	43.87	22.50	35.75	36.93

模型描述

模型依赖于 Local-Sparse-Global 注意力机制来处理长序列： attn

模型约有 1.45 亿个参数（6 个编码器层 - 6 个解码器层）。该模型从 BART-base 进行预热启动，转换为处理长序列（仅编码器）并进行微调。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：8e - 05
训练批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器预热比例：0.1
训练轮数：10.0

生成超参数

生成期间使用了以下超参数：

数据集名称：ccdv/WCEP-10
数据集配置名称：roberta
评估批次大小：8
评估样本数：1022
提前停止：True
忽略填充标记以计算损失：True
长度惩罚：2.0
最大长度：64
最小长度：0
束搜索宽度：5
无重复 n - 元语法大小：None
随机种子：123

框架版本

Transformers 4.18.0
Pytorch 1.10.1+cu102
Datasets 2.1.0
Tokenizers 0.11.6