Randeng-Pegasus-238M-Chinese開源文本摘要模型 - 免費部署高效提取文本要點

首頁

Randeng Pegasus 238M Chinese

由IDEA-CCNL開發

專長於處理文本摘要任務的中文版PAGASUS-base模型

文本生成

Transformers

中文#中文文本摘要 #PEGASUS架構 #預訓練模型

下載量 104

發布時間 : 6/9/2022

模型概述

基於PEGASUS架構訓練的中文文本摘要模型，採用悟道語料庫進行預訓練，融合結巴分詞與BERT分詞器優化中文處理能力

模型特點

中文優化分詞

創新性融合結巴分詞與BERT分詞器，針對中文特性進行優化

多尺寸版本

提供238M基礎版和523M大尺寸版本，滿足不同場景需求

預訓練優化

基於180GB悟道語料庫進行預訓練，增強模型泛化能力

模型能力

中文文本摘要生成

長文本壓縮

關鍵信息提取

使用案例

新聞媒體

新聞摘要生成

自動生成新聞內容的簡明摘要

示例輸出：'截止昨日晚9點，包括北京梅賽德斯-奔馳銷售服務有限公司東區總經理在內的多名管理人員仍留在上海辦公室內'

商業分析

報告摘要

自動提取商業報告的核心內容

🚀 燃燈-飛馬-238M-中文模型

燃燈-飛馬-238M-中文模型是中文版的PAGASUS-base，擅長處理摘要任務，為中文文本摘要提供了高效的解決方案。

🚀 快速開始

模型使用示例

from transformers import PegasusForConditionalGeneration
# 需要提前從風神榜-LM的github倉庫下載tokenizers_pegasus.py和其他Python腳本，
# 或者你可以從https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_238M/tree/main下載tokenizers_pegasus.py和data_utils.py
# 強烈建議你克隆風神榜-LM倉庫：
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# 然後你會看到飛馬模型所需的tokenizers_pegasus.py和data_utils.py
from tokenizers_pegasus import PegasusTokenizer

model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Chinese")

text = "據微信公眾號“界面”報道，4日上午10點左右，中國發改委反壟斷調查小組突擊查訪奔馳上海辦事處，調取數據材料，並對多名奔馳高管進行了約談。截止昨日晚9點，包括北京梅賽德斯-奔馳銷售服務有限公司東區總經理在內的多名管理人員仍留在上海辦公室內"
inputs = tokenizer(text, max_length=512, return_tensors="pt")

# 生成摘要
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
# 模型輸出: 截止昨日晚9點，包括北京梅賽德斯-奔馳銷售服務有限公司東區總經理在內的多名管理人員仍留在上海辦公室內

✨ 主要特性

燃燈-飛馬-238M-中文模型專為中文摘要任務設計，具有以下特性：

基於PEGASUS架構，在解決中文自動摘要任務上表現出色。
使用悟道語料庫(180G版本)進行預訓練，具備豐富的語言知識。
考慮到中文sentence piece不穩定，同時使用了結巴分詞和BERT分詞器。
提供了large版本以及在中文摘要數據集上微調的版本，滿足不同需求。

📦 安裝指南

使用該模型前，需要提前從風神榜-LM的github倉庫下載tokenizers_pegasus.py和其他Python腳本，或者從這裡下載tokenizers_pegasus.py和data_utils.py。強烈建議克隆風神榜-LM倉庫：

# 克隆倉庫
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 進入相關目錄
cd Fengshenbang-LM/fengshen/examples/pegasus/

之後你會看到飛馬模型所需的tokenizers_pegasus.py和data_utils.py。

📚 詳細文檔

模型分類

屬性	詳情
需求	通用
任務	自然語言轉換
系列	燃燈
模型	PEFASUS
參數	238M
額外	中文

模型信息

參考論文：PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization

為了解決中文的自動摘要任務，我們遵循PEGASUS的設計來訓練中文的版本。我們使用了悟道語料庫(180G版本)作為預訓練數據集。此外，考慮到中文sentence piece不穩定，我們在Randeng-PEGASUS中同時使用了結巴分詞和BERT分詞器。我們也提供large的版本：IDEA-CCNL/Randeng-Pegasus-523M-Chinese。以及，我們也提供了在中文摘要數據集上微調的版本：Randeng-Pegasus-238M-Summary-Chinese。

📄 許可證

本項目相關引用信息如下：如果您在您的工作中使用了我們的模型，可以引用我們的論文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我們的網站:

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}