🚀 燃燈-飛馬-523M-中文模型
燃燈-飛馬-523M-中文模型是中文版的PAGASUS-large,尤其擅長處理摘要任務,為中文文本摘要提供了強大的支持。
🚀 快速開始
模型使用
from transformers import PegasusForConditionalGeneration
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-523M-Chinese")
text = "據微信公眾號“界面”報道,4日上午10點左右,中國發改委反壟斷調查小組突擊查訪奔馳上海辦事處,調取數據材料,並對多名奔馳高管進行了約談。截止昨日晚9點,包括北京梅賽德斯-奔馳銷售服務有限公司東區總經理在內的多名管理人員仍留在上海辦公室內"
inputs = tokenizer(text, max_length=1024, return_tensors="pt")
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
✨ 主要特性
燃燈-飛馬-523M-中文模型專為解決中文自動摘要任務而設計,具有以下特性:
- 基於PEGASUS的設計,在中文摘要任務上表現出色。
- 使用悟道語料庫(180G版本)進行預訓練,具備豐富的語言知識。
- 考慮到中文sentence piece不穩定,同時使用了結巴分詞和BERT分詞器。
- 提供base版本和在中文摘要數據集上微調的版本,滿足不同需求。
📦 模型信息
📚 詳細文檔
為了解決中文的自動摘要任務,我們遵循PEGASUS的設計來訓練中文的版本。我們使用了悟道語料庫(180G版本)作為預訓練數據集。此外,考慮到中文sentence piece不穩定,我們在Randeng-PEGASUS中同時使用了結巴分詞和BERT分詞器。
📄 引用
如果您在您的工作中使用了我們的模型,可以引用我們的論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
📎 相關鏈接