🚀 CPM-Generate
CPM(中文預訓練語言模型)是基於Transformer的自迴歸語言模型,擁有26億參數和100GB中文訓練數據。它能助力下游中文NLP任務,如對話、文章生成、完形填空和語言理解等。
🚀 快速開始
CPM(中文預訓練語言模型)是一個基於Transformer的自迴歸語言模型,擁有26億參數,使用100GB中文數據進行訓練。據我們所知,CPM是目前最大的中文預訓練語言模型,可促進下游中文自然語言處理任務,如對話、文章生成、完形填空和語言理解等。
項目鏈接
模型下載
論文鏈接
✨ 主要特性
- 基於Transformer架構的自迴歸語言模型。
- 擁有26億參數,使用100GB中文數據進行訓練。
- 可促進多種下游中文自然語言處理任務。
📦 安裝指南
暫未提及安裝相關內容,跳過該章節。
💻 使用示例
基礎用法
from transformers import TextGenerationPipeline, AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("TsinghuaAI/CPM-Generate")
model = AutoModelWithLMHead.from_pretrained("TsinghuaAI/CPM-Generate")
text_generator = TextGenerationPipeline(model, tokenizer)
text_generator('清華大學', max_length=50, do_sample=True, top_p=0.9)
📚 詳細文檔
預期用途與限制
如何使用
上述代碼示例展示瞭如何使用CPM-Generate進行文本生成。
限制與偏差
CPM生成的文本是由在大量文本上訓練的神經網絡模型自動生成的,並不代表作者或其機構的官方態度和偏好。CPM生成的文本僅用於技術和科學目的。如果它侵犯了您的權益或違反了社會道德,請不要傳播,並聯系作者,作者將及時處理。
訓練數據
我們在預訓練中收集了不同類型的文本,包括百科、新聞、小說和問答等。訓練數據的詳細信息如下:
數據來源 |
百科 |
網頁 |
故事 |
新聞 |
對話 |
大小 |
~40GB |
~39GB |
~10GB |
~10GB |
~1GB |
訓練過程
基於對學習率和批量大小的超參數搜索,我們將學習率設置為 \(1.5\times10^{-4}\),批量大小設置為 \(3,072\),這使得模型訓練更加穩定。在第一個版本中,我們仍然採用密集註意力機制,最大序列長度為 \(1,024\)。未來我們將實現稀疏注意力機制。我們對模型進行了 \(20,000\) 步的預訓練,前 \(5,000\) 步用於熱身。優化器使用Adam。使用64塊NVIDIA V100訓練我們最大的模型需要兩週時間。
評估結果
我們在少樣本(甚至零樣本)設置下,對不同參數數量的CPM(詳情如下)在各種中文NLP任務上進行了評估。隨著參數數量的增加,CPM在大多數數據集上表現更好,這表明更大的模型在語言生成和語言理解方面更熟練。我們提供了文本分類、中文成語完形填空和短文本對話生成的結果如下。更多詳細結果請參考我們的論文。
文本分類任務的零樣本性能
|
TNEWS |
IFLYTEK |
OCNLI |
CPM-Small |
0.626 |
0.584 |
0.378 |
CPM-Medium |
0.618 |
0.635 |
0.379 |
CPM-Large |
0.703 |
0.708 |
0.442 |
中文成語完形填空(ChID)數據集上的性能
|
有監督 |
無監督 |
CPM-Small |
0.657 |
0.433 |
CPM-Medium |
0.695 |
0.524 |
CPM-Large |
0.804 |
0.685 |
短文本對話生成(STC)數據集上的性能
|
平均 |
極值 |
貪心 |
Dist-1 |
Dist-2 |
少樣本(無監督) |
|
|
|
|
|
CDial-GPT |
0.899 |
0.797 |
0.810 |
1,963 / 0.011 |
20,814 / 0.126 |
CPM-Large |
0.928 |
0.805 |
0.815 |
3,229 / 0.007 |
68,008 / 0.154 |
有監督 |
|
|
|
|
|
CDial-GPT |
0.933 |
0.814 |
0.826 |
2,468 / 0.008 |
35,634 / 0.127 |
CPM-Large |
0.934 |
0.810 |
0.819 |
3,352 / 0.011 |
67,310 / 0.233 |
BibTeX引用和引用信息
@article{cpm-v1,
title={CPM: A Large-scale Generative Chinese Pre-trained Language Model},
author={Zhang, Zhengyan and Han, Xu, and Zhou, Hao, and Ke, Pei, and Gu, Yuxian and Ye, Deming and Qin, Yujia and Su, Yusheng and Ji, Haozhe and Guan, Jian and Qi, Fanchao and Wang, Xiaozhi and Zheng, Yanan and Zeng, Guoyang and Cao, Huanqi and Chen, Shengqi and Li, Daixuan and Sun, Zhenbo and Liu, Zhiyuan and Huang, Minlie and Han, Wentao and Tang, Jie and Li, Juanzi and Sun, Maosong},
year={2020}
}
📄 許可證
本項目採用MIT許可證。