Randeng Pegasus 523M Summary Chinese V1
专长于处理文本摘要任务的中文PEGASUS-large模型,基于多个中文摘要数据集微调
下载量 95
发布时间 : 1/13/2023
模型简介
基于PEGASUS架构的中文文本摘要模型,在7个中文领域文本摘要数据集上微调,提升摘要的原文忠实度
模型特点
多领域数据集微调
在7个中文领域文本摘要数据集(教育、新闻、NLPCC等)上微调,覆盖广泛领域
高忠实度摘要
通过实体过滤优化,在保持指标不下降的前提下提升摘要的原文忠实度
中文优化
专门针对中文文本特点优化的PEGASUS模型
模型能力
文本摘要生成
长文本压缩
关键信息提取
使用案例
新闻媒体
新闻摘要生成
自动生成新闻文章的精简摘要
在LCSTS数据集上Rouge-1达46.94
内容分析
社交媒体内容摘要
从微博等社交媒体内容中提取关键信息
🚀 燃灯-飞马-523M-摘要-中文-V1
本模型是中文版的PAGASUS-large,善于处理摘要任务,在多个中文摘要数据集上进行了微调,能为中文文本摘要任务提供高效解决方案。
🚀 快速开始
本模型是基于Transformer架构的预训练模型,可用于中文文本摘要任务。以下是使用示例:
from transformers import PegasusForConditionalGeneration
# 需要提前从风神榜模型库的GitHub仓库下载tokenizers_pegasus.py和其他Python脚本,
# 或者你可以从https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main下载tokenizers_pegasus.py和data_utils.py
# 强烈建议你克隆风神榜模型库的仓库:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# 然后你就会看到飞马模型所需的tokenizers_pegasus.py和data_utils.py
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
text = "在北京冬奥会自由式滑雪女子坡面障碍技巧决赛中,中国选手谷爱凌夺得银牌。祝贺谷爱凌!今天上午,自由式滑雪女子坡面障碍技巧决赛举行。决赛分三轮进行,取选手最佳成绩排名决出奖牌。第一跳,中国选手谷爱凌获得69.90分。在12位选手中排名第三。完成动作后,谷爱凌又扮了个鬼脸,甚是可爱。第二轮中,谷爱凌在道具区第三个障碍处失误,落地时摔倒。获得16.98分。网友:摔倒了也没关系,继续加油!在第二跳失误摔倒的情况下,谷爱凌顶住压力,第三跳稳稳发挥,流畅落地!获得86.23分!此轮比赛,共12位选手参赛,谷爱凌第10位出场。网友:看比赛时我比谷爱凌紧张,加油!"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")
# 生成摘要
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
# 模型输出:自由式滑雪女子坡面障碍技巧决赛谷爱凌摘银
✨ 主要特性
- 专为中文文本摘要任务设计,在多个中文摘要数据集上微调,能更好地适应中文语境。
- 在不损伤下游指标的情况下,提升了摘要对原文的忠实度。
📦 安装指南
使用前需要安装必要的依赖库,你可以通过以下命令安装:
pip install transformers
同时,需要提前从风神榜模型库的GitHub仓库下载tokenizers_pegasus.py
和其他Python脚本,或者从这里下载tokenizers_pegasus.py
和data_utils.py
。强烈建议克隆风神榜模型库的仓库:
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
cd Fengshenbang-LM/fengshen/examples/pegasus/
💻 使用示例
基础用法
from transformers import PegasusForConditionalGeneration
# 需要提前从风神榜模型库的GitHub仓库下载tokenizers_pegasus.py和其他Python脚本,
# 或者你可以从https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main下载tokenizers_pegasus.py和data_utils.py
# 强烈建议你克隆风神榜模型库的仓库:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# 然后你就会看到飞马模型所需的tokenizers_pegasus.py和data_utils.py
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
text = "在北京冬奥会自由式滑雪女子坡面障碍技巧决赛中,中国选手谷爱凌夺得银牌。祝贺谷爱凌!今天上午,自由式滑雪女子坡面障碍技巧决赛举行。决赛分三轮进行,取选手最佳成绩排名决出奖牌。第一跳,中国选手谷爱凌获得69.90分。在12位选手中排名第三。完成动作后,谷爱凌又扮了个鬼脸,甚是可爱。第二轮中,谷爱凌在道具区第三个障碍处失误,落地时摔倒。获得16.98分。网友:摔倒了也没关系,继续加油!在第二跳失误摔倒的情况下,谷爱凌顶住压力,第三跳稳稳发挥,流畅落地!获得86.23分!此轮比赛,共12位选手参赛,谷爱凌第10位出场。网友:看比赛时我比谷爱凌紧张,加油!"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")
# 生成摘要
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
# 模型输出:自由式滑雪女子坡面障碍技巧决赛谷爱凌摘银
📚 详细文档
- Github:Fengshenbang-LM
- Docs:Fengshenbang-Docs
🔧 技术细节
模型分类
属性 | 详情 |
---|---|
需求 | 通用 |
任务 | 自然语言转换 |
系列 | 燃灯 |
模型 | PEFASUS |
参数 | 523M |
额外 | 文本摘要任务 - 中文 |
模型信息
参考论文:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
基于Randeng-Pegasus-523M-Chinese,我们在收集的7个中文领域的文本摘要数据集(约4M个样本),使用实体过滤后数据集(约1.8M)重新微调,在不损伤下游指标的情况下提升了摘要对原文的忠实度,得到了summary-v1版本。这7个数据集为:education, new2016zh, nlpcc, shence, sohu, thucnews和weibo。
下游效果
数据集 | rouge-1 | rouge-2 | rouge-L |
---|---|---|---|
LCSTS | 46.94 | 33.92 | 43.51 |
📄 许可证
如果你在工作中使用了我们的模型,可以引用我们的论文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我们的网站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98