Randeng Pegasus 523M Summary Chinese V1
專長於處理文本摘要任務的中文PEGASUS-large模型,基於多箇中文摘要數據集微調
下載量 95
發布時間 : 1/13/2023
模型概述
基於PEGASUS架構的中文文本摘要模型,在7箇中文領域文本摘要數據集上微調,提升摘要的原文忠實度
模型特點
多領域數據集微調
在7箇中文領域文本摘要數據集(教育、新聞、NLPCC等)上微調,覆蓋廣泛領域
高忠實度摘要
通過實體過濾優化,在保持指標不下降的前提下提升摘要的原文忠實度
中文優化
專門針對中文文本特點優化的PEGASUS模型
模型能力
文本摘要生成
長文本壓縮
關鍵信息提取
使用案例
新聞媒體
新聞摘要生成
自動生成新聞文章的精簡摘要
在LCSTS數據集上Rouge-1達46.94
內容分析
社交媒體內容摘要
從微博等社交媒體內容中提取關鍵信息
🚀 燃燈-飛馬-523M-摘要-中文-V1
本模型是中文版的PAGASUS-large,善於處理摘要任務,在多箇中文摘要數據集上進行了微調,能為中文文本摘要任務提供高效解決方案。
🚀 快速開始
本模型是基於Transformer架構的預訓練模型,可用於中文文本摘要任務。以下是使用示例:
from transformers import PegasusForConditionalGeneration
# 需要提前從風神榜模型庫的GitHub倉庫下載tokenizers_pegasus.py和其他Python腳本,
# 或者你可以從https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main下載tokenizers_pegasus.py和data_utils.py
# 強烈建議你克隆風神榜模型庫的倉庫:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# 然後你就會看到飛馬模型所需的tokenizers_pegasus.py和data_utils.py
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
text = "在北京冬奧會自由式滑雪女子坡面障礙技巧決賽中,中國選手谷愛凌奪得銀牌。祝賀谷愛凌!今天上午,自由式滑雪女子坡面障礙技巧決賽舉行。決賽分三輪進行,取選手最佳成績排名決出獎牌。第一跳,中國選手谷愛凌獲得69.90分。在12位選手中排名第三。完成動作後,谷愛凌又扮了個鬼臉,甚是可愛。第二輪中,谷愛凌在道具區第三個障礙處失誤,落地時摔倒。獲得16.98分。網友:摔倒了也沒關係,繼續加油!在第二跳失誤摔倒的情況下,谷愛凌頂住壓力,第三跳穩穩發揮,流暢落地!獲得86.23分!此輪比賽,共12位選手參賽,谷愛凌第10位出場。網友:看比賽時我比谷愛凌緊張,加油!"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")
# 生成摘要
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
# 模型輸出:自由式滑雪女子坡面障礙技巧決賽谷愛凌摘銀
✨ 主要特性
- 專為中文文本摘要任務設計,在多箇中文摘要數據集上微調,能更好地適應中文語境。
- 在不損傷下游指標的情況下,提升了摘要對原文的忠實度。
📦 安裝指南
使用前需要安裝必要的依賴庫,你可以通過以下命令安裝:
pip install transformers
同時,需要提前從風神榜模型庫的GitHub倉庫下載tokenizers_pegasus.py
和其他Python腳本,或者從這裡下載tokenizers_pegasus.py
和data_utils.py
。強烈建議克隆風神榜模型庫的倉庫:
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
cd Fengshenbang-LM/fengshen/examples/pegasus/
💻 使用示例
基礎用法
from transformers import PegasusForConditionalGeneration
# 需要提前從風神榜模型庫的GitHub倉庫下載tokenizers_pegasus.py和其他Python腳本,
# 或者你可以從https://huggingface.co/IDEA-CCNL/Randeng_Pegasus_523M/tree/main下載tokenizers_pegasus.py和data_utils.py
# 強烈建議你克隆風神榜模型庫的倉庫:
# 1. git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
# 2. cd Fengshenbang-LM/fengshen/examples/pegasus/
# 然後你就會看到飛馬模型所需的tokenizers_pegasus.py和data_utils.py
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese-V1")
text = "在北京冬奧會自由式滑雪女子坡面障礙技巧決賽中,中國選手谷愛凌奪得銀牌。祝賀谷愛凌!今天上午,自由式滑雪女子坡面障礙技巧決賽舉行。決賽分三輪進行,取選手最佳成績排名決出獎牌。第一跳,中國選手谷愛凌獲得69.90分。在12位選手中排名第三。完成動作後,谷愛凌又扮了個鬼臉,甚是可愛。第二輪中,谷愛凌在道具區第三個障礙處失誤,落地時摔倒。獲得16.98分。網友:摔倒了也沒關係,繼續加油!在第二跳失誤摔倒的情況下,谷愛凌頂住壓力,第三跳穩穩發揮,流暢落地!獲得86.23分!此輪比賽,共12位選手參賽,谷愛凌第10位出場。網友:看比賽時我比谷愛凌緊張,加油!"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")
# 生成摘要
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
# 模型輸出:自由式滑雪女子坡面障礙技巧決賽谷愛凌摘銀
📚 詳細文檔
- Github:Fengshenbang-LM
- Docs:Fengshenbang-Docs
🔧 技術細節
模型分類
屬性 | 詳情 |
---|---|
需求 | 通用 |
任務 | 自然語言轉換 |
系列 | 燃燈 |
模型 | PEFASUS |
參數 | 523M |
額外 | 文本摘要任務 - 中文 |
模型信息
參考論文:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
基於Randeng-Pegasus-523M-Chinese,我們在收集的7箇中文領域的文本摘要數據集(約4M個樣本),使用實體過濾後數據集(約1.8M)重新微調,在不損傷下游指標的情況下提升了摘要對原文的忠實度,得到了summary-v1版本。這7個數據集為:education, new2016zh, nlpcc, shence, sohu, thucnews和weibo。
下游效果
數據集 | rouge-1 | rouge-2 | rouge-L |
---|---|---|---|
LCSTS | 46.94 | 33.92 | 43.51 |
📄 許可證
如果你在工作中使用了我們的模型,可以引用我們的論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98