lsg - bart - base - 16384 - mediasum开源模型 - 高效处理长序列，轻松生成摘要

首页

Lsg Bart Base 16384 Mediasum

由 ccdv 开发

基于LSG技术的BART模型，专为处理长序列摘要生成任务优化，支持16384长度的输入序列

文本生成

Transformers

英语#长文本摘要 #局部稀疏全局注意力 #媒体内容摘要

下载量 22

发布时间 : 6/23/2022

模型简介

该模型采用局部-稀疏-全局注意力机制，在MediaSum数据集上微调，适用于长文本摘要生成任务

模型特点

长序列处理能力

支持处理长达16384个token的输入序列，适合长文档摘要任务

混合注意力机制

结合局部、稀疏和全局注意力，有效捕捉长距离依赖关系

高效微调

在1个epoch内完成微调，保持高性能的同时节省计算资源

模型能力

长文本摘要生成

文本压缩

关键信息提取

使用案例

媒体内容处理

新闻文章摘要

自动生成新闻文章的核心内容摘要

Rouge-L得分31.81

访谈记录总结

从长篇访谈记录中提取关键对话要点

Rouge-1得分35.31

🚀 ccdv/lsg-bart-base-16384-mediasum

该模型是用于文本摘要的微调模型，基于特定数据集训练，能处理长序列文本，在测试集上有较好表现。

🚀 快速开始

Transformers >= 4.36.1 该模型依赖自定义建模文件，你需要添加 trust_remote_code=True 请参阅 #13467

LSG 的 ArXiv 论文。 Github/转换脚本可在这个链接找到。

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)
model = AutoModelForSeq2SeqLM.from_pretrained("ccdv/lsg-bart-base-16384-mediasum", trust_remote_code=True)

text = "Replace by what you want."
pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer, device=0)
generated_text = pipe(
  text, 
  truncation=True, 
  max_length=64, 
  no_repeat_ngram_size=7,
  num_beams=2,
  early_stopping=True
  )

✨ 主要特性

该模型是 ccdv/lsg-bart-base-4096-mediasum 在 ccdv/mediasum roberta_prepended mediasum 数据集上的微调版本。模型经过转换以处理 16384 的长序列，并相应地进行了 1 个 epoch 的微调。它在测试集上取得了以下结果：

长度	全局令牌	微调方式	块大小	连接数	R1	R2	RL	RLsum
16384	64	全量微调	256	768	35.31	18.35	31.81	32.47
16384	1	全量微调	256	768	35.21	18.20	31.73	32.37
16384	64	仅全局微调	256	768	35.22	18.08	31.54	32.21
16384	1	无微调	256	768	35.17	18.13	31.54	32.20