CPM-Generate開源中文預訓練模型 - 免費支持多種自然語言處理任務

首頁

CPM Generate

由TsinghuaAI開發

CPM是基於Transformer的26億參數中文預訓練語言模型，使用100GB中文語料訓練，支持多種自然語言處理任務。

大型語言模型

Transformers

中文開源協議:MIT #26億參數中文模型 #自迴歸文本生成 #零樣本學習

下載量 622

發布時間 : 3/2/2022

模型概述

大規模生成式中文預訓練語言模型，適用於文本生成、對話系統、完形填空等下游任務。

模型特點

大規模中文預訓練

使用100GB多樣化中文語料訓練，涵蓋百科、網頁、新聞等多領域數據

少樣本學習能力

在零樣本/少樣本設定下仍能取得優異表現，降低下游任務微調成本

多任務支持

支持生成、分類、填空等多種自然語言處理任務

模型能力

中文文本生成

對話系統構建

文章續寫

成語填空

文本分類

使用案例

內容創作

新聞摘要生成

根據新聞正文自動生成摘要

在TNEWS數據集零樣本準確率達70.3%

教育應用

成語填空輔助

自動補全句子中的缺失成語

ChID數據集無監督準確率68.5%

智能對話

短文本對話生成

生成連貫的對話回覆

STC數據集詞級Dist-2達0.233

🚀 CPM-Generate

CPM（中文預訓練語言模型）是基於Transformer的自迴歸語言模型，擁有26億參數和100GB中文訓練數據。它能助力下游中文NLP任務，如對話、文章生成、完形填空和語言理解等。

🚀 快速開始

CPM（中文預訓練語言模型）是一個基於Transformer的自迴歸語言模型，擁有26億參數，使用100GB中文數據進行訓練。據我們所知，CPM是目前最大的中文預訓練語言模型，可促進下游中文自然語言處理任務，如對話、文章生成、完形填空和語言理解等。項目鏈接模型下載論文鏈接

✨ 主要特性

基於Transformer架構的自迴歸語言模型。
擁有26億參數，使用100GB中文數據進行訓練。
可促進多種下游中文自然語言處理任務。

📦 安裝指南

暫未提及安裝相關內容，跳過該章節。

💻 使用示例

基礎用法

from transformers import TextGenerationPipeline, AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("TsinghuaAI/CPM-Generate")
model = AutoModelWithLMHead.from_pretrained("TsinghuaAI/CPM-Generate")

text_generator = TextGenerationPipeline(model, tokenizer)
text_generator('清華大學', max_length=50, do_sample=True, top_p=0.9)

📚 詳細文檔

預期用途與限制

如何使用

上述代碼示例展示瞭如何使用CPM-Generate進行文本生成。

限制與偏差

CPM生成的文本是由在大量文本上訓練的神經網絡模型自動生成的，並不代表作者或其機構的官方態度和偏好。CPM生成的文本僅用於技術和科學目的。如果它侵犯了您的權益或違反了社會道德，請不要傳播，並聯系作者，作者將及時處理。

訓練數據

我們在預訓練中收集了不同類型的文本，包括百科、新聞、小說和問答等。訓練數據的詳細信息如下：

數據來源	百科	網頁	故事	新聞	對話
大小	~40GB	~39GB	~10GB	~10GB	~1GB

訓練過程

基於對學習率和批量大小的超參數搜索，我們將學習率設置為 \(1.5\times10^{-4}\)，批量大小設置為 \(3,072\)，這使得模型訓練更加穩定。在第一個版本中，我們仍然採用密集註意力機制，最大序列長度為 \(1,024\)。未來我們將實現稀疏注意力機制。我們對模型進行了 \(20,000\) 步的預訓練，前 \(5,000\) 步用於熱身。優化器使用Adam。使用64塊NVIDIA V100訓練我們最大的模型需要兩週時間。

評估結果

我們在少樣本（甚至零樣本）設置下，對不同參數數量的CPM（詳情如下）在各種中文NLP任務上進行了評估。隨著參數數量的增加，CPM在大多數數據集上表現更好，這表明更大的模型在語言生成和語言理解方面更熟練。我們提供了文本分類、中文成語完形填空和短文本對話生成的結果如下。更多詳細結果請參考我們的論文。

文本分類任務的零樣本性能

	TNEWS	IFLYTEK	OCNLI
CPM-Small	0.626	0.584	0.378
CPM-Medium	0.618	0.635	0.379
CPM-Large	0.703	0.708	0.442

中文成語完形填空（ChID）數據集上的性能

	有監督	無監督
CPM-Small	0.657	0.433
CPM-Medium	0.695	0.524
CPM-Large	0.804	0.685

短文本對話生成（STC）數據集上的性能

	平均	極值	貪心	Dist-1	Dist-2
少樣本（無監督）
CDial-GPT	0.899	0.797	0.810	1,963 / 0.011	20,814 / 0.126
CPM-Large	0.928	0.805	0.815	3,229 / 0.007	68,008 / 0.154
有監督
CDial-GPT	0.933	0.814	0.826	2,468 / 0.008	35,634 / 0.127
CPM-Large	0.934	0.810	0.819	3,352 / 0.011	67,310 / 0.233

BibTeX引用和引用信息

@article{cpm-v1,
  title={CPM: A Large-scale Generative Chinese Pre-trained Language Model},
  author={Zhang, Zhengyan and Han, Xu, and Zhou, Hao, and Ke, Pei, and Gu, Yuxian and Ye, Deming and Qin, Yujia and Su, Yusheng and Ji, Haozhe and Guan, Jian and Qi, Fanchao and Wang, Xiaozhi and Zheng, Yanan and Zeng, Guoyang and Cao, Huanqi and Chen, Shengqi and Li, Daixuan and Sun, Zhenbo and Liu, Zhiyuan and Huang, Minlie and Han, Wentao and Tang, Jie and Li, Juanzi and Sun, Maosong},
  year={2020}
}