gpt2-chinese-ancient開源模型 - 基於300萬條數據，輕鬆生成文言文文本

首頁

Gpt2 Chinese Ancient

由uer開發

專用於生成文言文文本的GPT2模型，基於300萬條文言文數據預訓練

大型語言模型中文#文言文生成 #古籍文本處理 #古漢語詞表擴展

下載量 341

發布時間 : 3/2/2022

模型概述

該模型基於GPT2架構，專門針對文言文文本生成任務進行優化，能夠生成符合古漢語語法和風格的文本

模型特點

專為文言文優化

針對古漢語特點進行專門訓練，能生成符合文言文語法和風格的文本

大規模訓練數據

使用300萬條文言文文本進行預訓練，覆蓋廣泛古籍內容

擴展詞彙表

特別處理低頻古漢語單字，提升生成質量

模型能力

文言文文本生成

古漢語文本續寫

文言文風格模仿

使用案例

教育研究

古文自動生成

生成教學用文言文例句或段落

可生成符合語法規範的文言文文本

古籍研究輔助

輔助研究者進行古籍文本風格分析

文化創意

古風內容創作

生成古風小說、詩詞等創意內容

🚀 中文古代GPT2模型

本模型用於生成古代中文文本，藉助預訓練技術，能夠依據給定的文本內容生成符合古代中文語境和風格的語句。通過不同的預訓練工具和豐富的訓練數據，為古代中文文本生成提供了有力支持。

🚀 快速開始

你可以使用文本生成管道直接使用該模型：

>>> from transformers import BertTokenizer, GPT2LMHeadModel, TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("uer/gpt2-chinese-ancient")
>>> model = GPT2LMHeadModel.from_pretrained("uer/gpt2-chinese-ancient")
>>> text_generator = TextGenerationPipeline(model, tokenizer)   
>>> text_generator("當是時", max_length=100, do_sample=True)
    [{'generated_text': '[CLS]當是時 所 議 者 不 為 無 據 ， 況 亦 在 之 列 乎 ？ 然 則 今 日 之 事 ， 所 當 思 者 在 何 ？ 欲 求 國 是 於 天 下 ， 莫 在 於 得 人 。 臣 以 為 求 人 之 法 ， 不 在 多 用 官 一 途 。 誠 使 得 才 者 眾 ， 人 才 者 優 ， 則 治 所 當 得 ， 而 不 事 於 官 者 ， 人 才 乃 其 常 也 。 所 當 講 者'}]

✨ 主要特性

多工具預訓練：該模型可以通過 UER-py 或 TencentPretrain 進行預訓練。其中，UER-py 在這篇論文中被介紹；TencentPretrain 則在這篇論文中被引入，它繼承了 UER-py，支持參數超過十億的模型，並將其擴展為多模態預訓練框架。
多途徑下載：你可以從 UER-py 模型庫頁面、GPT2-Chinese Github 頁面下載該模型，也可以通過 HuggingFace 從 gpt2-chinese-ancient 鏈接下載。

📦 安裝指南

數據預處理

python3 preprocess.py --corpus_path corpora/ancient_chinese.txt \
                      --vocab_path models/google_zh_ancient_vocab.txt \
                      --dataset_path ancient_chinese_dataset.pt --processes_num 16 \
                      --seq_length 320 --data_processor lm

模型預訓練

python3 pretrain.py --dataset_path ancient_chinese_dataset.pt \
                    --vocab_path models/google_zh_ancient_vocab.txt \
                    --config_path models/bert_base_config.json \
                    --output_model_path models/ancient_chinese_gpt2_model.bin \
                    --world_size 8 --gpu_ranks 0 1 2 3 4 5 6 7 \
                    --total_steps 500000 --save_checkpoint_steps 100000 --report_steps 10000 \
                    --learning_rate 5e-4 --batch_size 32

模型格式轉換

python3 scripts/convert_gpt2_from_uer_to_huggingface.py --input_model_path models/ancient_chinese_gpt2_model.bin-500000 \
                                                        --output_model_path pytorch_model.bin \
                                                        --layers_num 12

📚 詳細文檔

訓練數據

訓練數據包含 300 萬條古代中文文本，這些文本由 daizhigev20 收集。由於部分古代語料沒有標點，我們使用了由北京師範大學 ICIP 實驗室開發的古代中文標點系統。

訓練過程

該模型在騰訊雲上通過 UER-py 進行預訓練。我們以 320 的序列長度進行了 500000 步的預訓練，並使用擴展詞彙表來處理未登錄詞。古代中文語料中出現次數大於或等於 100 的漢字被添加到詞彙表中。

BibTeX 引用和引用信息

@article{radford2019language,
  title={Language Models are Unsupervised Multitask Learners},
  author={Radford, Alec and Wu, Jeff and Child, Rewon and Luan, David and Amodei, Dario and Sutskever, Ilya},
  year={2019}
}

@article{zhao2019uer,
  title={UER: An Open-Source Toolkit for Pre-training Models},
  author={Zhao, Zhe and Chen, Hui and Zhang, Jinbin and Zhao, Xin and Liu, Tao and Lu, Wei and Chen, Xi and Deng, Haotang and Ju, Qi and Du, Xiaoyong},
  journal={EMNLP-IJCNLP 2019},
  pages={241},
  year={2019}
}

@article{zhao2023tencentpretrain,
  title={TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities},
  author={Zhao, Zhe and Li, Yudong and Hou, Cheng and Zhao, Jing and others},
  journal={ACL 2023},
  pages={217},
  year={2023}
}