🚀 CPM-Generate
CPM (Chinese Pre-trained Language Model) はTransformerベースの自己回帰型言語モデルで、26億のパラメータと100GBの中国語学習データを持っています。私たちの知る限り、CPMは最大の中国語事前学習言語モデルで、会話、エッセイ生成、穴埋め問題、言語理解などの下流の中国語自然言語処理タスクを促進することができます。[プロジェクト] [モデル] [論文]
🚀 クイックスタート
モデルの説明
CPM (Chinese Pre-trained Language Model) はTransformerベースの自己回帰型言語モデルで、26億のパラメータと100GBの中国語学習データを持っています。私たちの知る限り、CPMは最大の中国語事前学習言語モデルで、会話、エッセイ生成、穴埋め問題、言語理解などの下流の中国語自然言語処理タスクを促進することができます。[プロジェクト] [モデル] [論文]
想定される用途と制限
使い方
from transformers import TextGenerationPipeline, AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("TsinghuaAI/CPM-Generate")
model = AutoModelWithLMHead.from_pretrained("TsinghuaAI/CPM-Generate")
text_generator = TextGenerationPipeline(model, tokenizer)
text_generator('清华大学', max_length=50, do_sample=True, top_p=0.9)
制限とバイアス
CPMによって生成されるテキストは、大量のテキストで学習されたニューラルネットワークモデルによって自動生成されるもので、著者や所属機関の公式な態度や嗜好を表すものではありません。CPMによって生成されるテキストは、技術的および科学的な目的のみに使用されます。もしあなたの権利や利益を侵害したり、社会的道徳に反する場合は、拡散しないで、著者に連絡してください。著者は速やかに対応します。
学習データ
事前学習では、百科事典、ニュース、小説、Q&Aなど、様々な種類のテキストを収集しています。学習データの詳細は以下の通りです。
データソース |
百科事典 |
ウェブページ |
物語 |
ニュース |
対話 |
サイズ |
~40GB |
~39GB |
~10GB |
~10GB |
~1GB |
学習手順
学習率とバッチサイズに関するハイパーパラメータ探索に基づき、学習率を \(1.5\times10^{-4}\)、バッチサイズを \(3,072\) に設定しました。これにより、モデルの学習がより安定します。最初のバージョンでは、依然として密なアテンションを採用し、最大シーケンス長は \(1,024\) です。将来的には疎なアテンションを実装する予定です。モデルを \(20,000\) ステップ事前学習し、最初の \(5,000\) ステップはウォームアップに使用します。オプティマイザはAdamです。最大のモデルを \(64\) 台のNVIDIA V100を使用して学習するのに2週間かかります。
評価結果
|
n_param |
n_layers |
d_model |
n_heads |
d_head |
CPM-Small |
109M |
12 |
768 |
12 |
64 |
CPM-Medium |
334M |
24 |
1,024 |
16 |
64 |
CPM-Large |
2.6B |
32 |
2,560 |
32 |
80 |
異なるパラメータ数のCPM(詳細は上記参照)を、フューショット(場合によってはゼロショット)設定で様々な中国語自然言語処理タスクで評価しました。パラメータ数が増えるにつれて、CPMはほとんどのデータセットでより良い性能を発揮します。これは、より大きなモデルが言語生成と言語理解により熟練していることを示しています。以下に、テキスト分類、中国語熟語穴埋め問題、短いテキスト会話生成の結果を示します。より詳細な結果については、論文を参照してください。
テキスト分類タスクにおけるゼロショット性能
|
TNEWS |
IFLYTEK |
OCNLI |
CPM-Small |
0.626 |
0.584 |
0.378 |
CPM-Medium |
0.618 |
0.635 |
0.379 |
CPM-Large |
0.703 |
0.708 |
0.442 |
中国語熟語穴埋め (ChID) データセットにおける性能
|
教師あり |
教師なし |
CPM-Small |
0.657 |
0.433 |
CPM-Medium |
0.695 |
0.524 |
CPM-Large |
0.804 |
0.685 |
短いテキスト会話生成 (STC) データセットにおける性能
|
平均 |
極値 |
貪欲法 |
Dist-1 |
Dist-2 |
フューショット (教師なし) |
|
|
|
|
|
CDial-GPT |
0.899 |
0.797 |
0.810 |
1,963 / 0.011 |
20,814 / 0.126 |
CPM-Large |
0.928 |
0.805 |
0.815 |
3,229 / 0.007 |
68,008 / 0.154 |
教師あり |
|
|
|
|
|
CDial-GPT |
0.933 |
0.814 |
0.826 |
2,468 / 0.008 |
35,634 / 0.127 |
CPM-Large |
0.934 |
0.810 |
0.819 |
3,352 / 0.011 |
67,310 / 0.233 |
BibTeXエントリと引用情報
@article{cpm-v1,
title={CPM: A Large-scale Generative Chinese Pre-trained Language Model},
author={Zhang, Zhengyan and Han, Xu, and Zhou, Hao, and Ke, Pei, and Gu, Yuxian and Ye, Deming and Qin, Yujia and Su, Yusheng and Ji, Haozhe and Guan, Jian and Qi, Fanchao and Wang, Xiaozhi and Zheng, Yanan and Zeng, Guoyang and Cao, Huanqi and Chen, Shengqi and Li, Daixuan and Sun, Zhenbo and Liu, Zhiyuan and Huang, Minlie and Han, Wentao and Tang, Jie and Li, Juanzi and Sun, Maosong},
year={2020}
}
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。