🚀 ランデン-Pegasus-238M-Chinese
中国語の要約タスクを得意とする、PAGASUS-baseの中国語版モデルです。
関連リンク
🚀 クイックスタート
このモデルは、中国語の自動要約タスクを解決するために設計された、中国語版のPAGASUS-baseです。以下に詳細な情報を提供します。
✨ 主な機能
- 中国語の自動要約タスクに特化した設計。
- 悟道コーパス(180Gバージョン)を用いた事前学習。
- 結巴分詞とBERT分詞器を併用した安定した分詞処理。
📦 インストール
本モデルを使用するには、transformers
ライブラリが必要です。また、tokenizers_pegasus.py
などのPythonスクリプトをダウンロードする必要があります。
git clone https://github.com/IDEA-CCNL/Fengshenbang-LM
cd Fengshenbang-LM/fengshen/examples/pegasus/
💻 使用例
基本的な使用法
from transformers import PegasusForConditionalGeneration
from tokenizers_pegasus import PegasusTokenizer
model = PegasusForConditionalGeneration.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Chinese")
tokenizer = PegasusTokenizer.from_pretrained("IDEA-CCNL/Randeng-Pegasus-238M-Chinese")
text = "据微信公众号“界面”报道,4日上午10点左右,中国发改委反垄断调查小组突击查访奔驰上海办事处,调取数据材料,并对多名奔驰高管进行了约谈。截止昨日晚9点,包括北京梅赛德斯-奔驰销售服务有限公司东区总经理在内的多名管理人员仍留在上海办公室内"
inputs = tokenizer(text, max_length=512, return_tensors="pt")
summary_ids = model.generate(inputs["input_ids"])
tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
📚 ドキュメント
モデル分類
属性 |
详情 |
モデルタイプ |
自然言語変換(NLT) |
シリーズ |
燃灯(Randeng) |
モデル |
PEFASUS |
パラメータ |
238M |
追加情報 |
中国語 |
モデル情報
参考論文: PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
中国語の自動要約タスクを解決するために、PEGASUSの設計に沿って中国語版を訓練しました。事前学習データセットとして、悟道コーパス(180Gバージョン)を使用しました。また、中国語のsentence pieceが不安定なことを考慮して、Randeng-PEGASUSでは結巴分詞とBERT分詞器を併用しています。
以下に、他のバージョンのモデルも提供しています。
📄 ライセンス
もしあなたの研究や開発でこのモデルを使用する場合は、以下の論文を引用してください。
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
また、以下のウェブサイトも引用できます。
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}