开源！Randeng - Pegasus - 523M - Chinese模型，专业实现精准中文文本摘要

首页

Randeng Pegasus 523M Chinese

由 IDEA-CCNL 开发

专精于文本摘要任务的中文版PAGASUS-large模型，基于PEGASUS架构训练，针对中文分词进行优化。

文本生成

Transformers

中文#中文文本摘要 #PEGASUS架构 #预训练优化

下载量 329

发布时间 : 6/9/2022

模型简介

该模型是基于PEGASUS架构的中文文本摘要模型，经过180G悟道语料库预训练，融合结巴分词与BERT分词器解决中文分词稳定性问题。

模型特点

中文优化

针对中文分词的稳定性问题，创新性地融合了结巴分词与BERT分词器。

大规模预训练

采用180G版悟道语料库作为预训练数据，提升模型性能。

多版本支持

提供基础版模型和中文摘要数据集微调版，满足不同需求。

模型能力

文本摘要生成

中文文本处理

使用案例

新闻摘要

新闻内容摘要

对长篇新闻文章生成简洁摘要，提取关键信息。

生成符合原文核心内容的简短摘要。

文档处理

长文档摘要

对技术文档、报告等长文本生成摘要。

提取文档核心内容，生成简洁摘要。

🚀 燃灯-飞马-523M-中文模型

燃灯-飞马-523M-中文模型是中文版的PAGASUS-large，尤其擅长处理摘要任务，为中文文本摘要提供了强大的支持。

🚀 快速开始

模型使用

from transformers import PegasusForConditionalGeneration
# 需要提前从Fengshenbang-LM的github仓库下载tokenizers_pegasus.py和其他Python脚本，
# 或者你可以从https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main下载tokenizers_pegasus.py和data_utils.py
# 强烈建议你克隆Fengshenbang-LM仓库：
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# 然后你就会看到pegasus模型所需的tokenizers_pegasus.py和data_utils.py
from tokenizers_pegasus import PegasusTokenizer

model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Chinese")

text = "据微信公众号“界面”报道，4日上午10点左右，中国发改委反垄断调查小组突击查访奔驰上海办事处，调取数据材料，并对多名奔驰高管进行了约谈。截止昨日晚9点，包括北京梅赛德斯-奔驰销售服务有限公司东区总经理在内的多名管理人员仍留在上海办公室内"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")

# 生成摘要
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

# 模型输出: 截止昨日晚9点，包括北京梅赛德斯-奔驰销售服务有限公司东区总经理在内的多名管理人员仍留在上海办公室内

✨ 主要特性

燃灯-飞马-523M-中文模型专为解决中文自动摘要任务而设计，具有以下特性：

基于PEGASUS的设计，在中文摘要任务上表现出色。
使用悟道语料库(180G版本)进行预训练，具备丰富的语言知识。
考虑到中文sentence piece不稳定，同时使用了结巴分词和BERT分词器。
提供base版本和在中文摘要数据集上微调的版本，满足不同需求。

📦 模型信息

属性	详情
模型类型	燃灯-飞马-523M-中文模型是中文版的PAGASUS-large，属于自然语言转换模型
训练数据	使用悟道语料库(180G版本)作为预训练数据集
参考论文	PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
其他版本	提供base版本：IDEA-CCNL/Randeng-Pegasus-238M-Chinese；提供在中文摘要数据集上微调的版本：Randeng-Pegasus-523M-Summary-Chinese

📚 详细文档

为了解决中文的自动摘要任务，我们遵循PEGASUS的设计来训练中文的版本。我们使用了悟道语料库(180G版本)作为预训练数据集。此外，考虑到中文sentence piece不稳定，我们在Randeng-PEGASUS中同时使用了结巴分词和BERT分词器。

📄 引用

如果您在您的工作中使用了我们的模型，可以引用我们的论文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的网站：

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}