🚀 燃灯-飞马-238M-中文模型
燃灯-飞马-238M-中文模型是中文版的PAGASUS-base,擅长处理摘要任务,为中文文本摘要提供了高效的解决方案。
🚀 快速开始
模型使用示例
from transformers import PegasusForConditionalGeneration
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Chinese")
text = "据微信公众号“界面”报道,4日上午10点左右,中国发改委反垄断调查小组突击查访奔驰上海办事处,调取数据材料,并对多名奔驰高管进行了约谈。截止昨日晚9点,包括北京梅赛德斯-奔驰销售服务有限公司东区总经理在内的多名管理人员仍留在上海办公室内"
inputs = tokenizer(text, max_length=512, return_tensors="pt")
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
✨ 主要特性
燃灯-飞马-238M-中文模型专为中文摘要任务设计,具有以下特性:
- 基于PEGASUS架构,在解决中文自动摘要任务上表现出色。
- 使用悟道语料库(180G版本)进行预训练,具备丰富的语言知识。
- 考虑到中文sentence piece不稳定,同时使用了结巴分词和BERT分词器。
- 提供了large版本以及在中文摘要数据集上微调的版本,满足不同需求。
📦 安装指南
使用该模型前,需要提前从风神榜-LM的github仓库下载tokenizers_pegasus.py
和其他Python脚本,或者从这里下载tokenizers_pegasus.py
和data_utils.py
。强烈建议克隆风神榜-LM仓库:
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
cd Fengshenbang-LM/fengshen/examples/pegasus/
之后你会看到飞马模型所需的tokenizers_pegasus.py
和data_utils.py
。
📚 详细文档
模型分类
属性 |
详情 |
需求 |
通用 |
任务 |
自然语言转换 |
系列 |
燃灯 |
模型 |
PEFASUS |
参数 |
238M |
额外 |
中文 |
模型信息
参考论文:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
为了解决中文的自动摘要任务,我们遵循PEGASUS的设计来训练中文的版本。我们使用了悟道语料库(180G版本)作为预训练数据集。此外,考虑到中文sentence piece不稳定,我们在Randeng-PEGASUS中同时使用了结巴分词和BERT分词器。我们也提供large的版本:IDEA-CCNL/Randeng-Pegasus-523M-Chinese。以及,我们也提供了在中文摘要数据集上微调的版本:Randeng-Pegasus-238M-Summary-Chinese。
📄 许可证
本项目相关引用信息如下:
如果您在您的工作中使用了我们的模型,可以引用我们的论文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我们的网站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
其他链接