CPM-Generateオープンソース中国語事前学習モデル - 複数の自然言語処理タスクを無料でサポート

ホーム

CPM Generate

TsinghuaAIによって開発

CPMはTransformerに基づく26億パラメータの中国語事前学習言語モデルで、100GBの中国語コーパスを使用して学習され、様々な自然言語処理タスクをサポートします。

大規模言語モデル

Transformers

中国語オープンソースライセンス:MIT #26億パラメータの中国語モデル #自己回帰型テキスト生成 #ゼロショット学習

ダウンロード数 622

リリース時間 : 3/2/2022

モデル概要

大規模生成型中国語事前学習言語モデルで、テキスト生成、対話システム、穴埋めなどの下流タスクに適しています。

モデル特徴

大規模中国語事前学習

100GBの多様な中国語コーパスを使用して学習され、百科事典、ウェブページ、ニュースなどの多領域のデータをカバーしています。

少ショット学習能力

ゼロショット/少ショット設定でも優れた性能を発揮し、下流タスクの微調整コストを削減します。

多タスクサポート

生成、分類、穴埋めなどの様々な自然言語処理タスクをサポートします。

モデル能力

中国語テキスト生成

対話システム構築

文章の続き生成

成語穴埋め

テキスト分類

使用事例

コンテンツ作成

ニュース要約生成

ニュース本文に基づいて自動的に要約を生成します。

TNEWSデータセットのゼロショット正解率は70.3%です。

教育応用

成語穴埋め支援

文章中の欠けている成語を自動的に補完します。

ChIDデータセットの無監督正解率は68.5%です。

スマート対話

短テキスト対話生成

一貫した対話応答を生成します。

STCデータセットの単語レベルのDist - 2は0.233です。

🚀 CPM-Generate

CPM (Chinese Pre-trained Language Model) はTransformerベースの自己回帰型言語モデルで、26億のパラメータと100GBの中国語学習データを持っています。私たちの知る限り、CPMは最大の中国語事前学習言語モデルで、会話、エッセイ生成、穴埋め問題、言語理解などの下流の中国語自然言語処理タスクを促進することができます。[プロジェクト] [モデル] [論文]

🚀 クイックスタート

モデルの説明

想定される用途と制限

使い方

from transformers import TextGenerationPipeline, AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("TsinghuaAI/CPM-Generate")
model = AutoModelWithLMHead.from_pretrained("TsinghuaAI/CPM-Generate")

text_generator = TextGenerationPipeline(model, tokenizer)
text_generator('清华大学', max_length=50, do_sample=True, top_p=0.9)

制限とバイアス

CPMによって生成されるテキストは、大量のテキストで学習されたニューラルネットワークモデルによって自動生成されるもので、著者や所属機関の公式な態度や嗜好を表すものではありません。CPMによって生成されるテキストは、技術的および科学的な目的のみに使用されます。もしあなたの権利や利益を侵害したり、社会的道徳に反する場合は、拡散しないで、著者に連絡してください。著者は速やかに対応します。

学習データ

事前学習では、百科事典、ニュース、小説、Q&Aなど、様々な種類のテキストを収集しています。学習データの詳細は以下の通りです。

データソース	百科事典	ウェブページ	物語	ニュース	対話
サイズ	~40GB	~39GB	~10GB	~10GB	~1GB

学習手順

学習率とバッチサイズに関するハイパーパラメータ探索に基づき、学習率を \(1.5\times10^{-4}\)、バッチサイズを \(3,072\) に設定しました。これにより、モデルの学習がより安定します。最初のバージョンでは、依然として密なアテンションを採用し、最大シーケンス長は \(1,024\) です。将来的には疎なアテンションを実装する予定です。モデルを \(20,000\) ステップ事前学習し、最初の \(5,000\) ステップはウォームアップに使用します。オプティマイザはAdamです。最大のモデルを \(64\) 台のNVIDIA V100を使用して学習するのに2週間かかります。

評価結果

	n_param	n_layers	d_model	n_heads	d_head
CPM-Small	109M	12	768	12	64
CPM-Medium	334M	24	1,024	16	64
CPM-Large	2.6B	32	2,560	32	80

異なるパラメータ数のCPM（詳細は上記参照）を、フューショット（場合によってはゼロショット）設定で様々な中国語自然言語処理タスクで評価しました。パラメータ数が増えるにつれて、CPMはほとんどのデータセットでより良い性能を発揮します。これは、より大きなモデルが言語生成と言語理解により熟練していることを示しています。以下に、テキスト分類、中国語熟語穴埋め問題、短いテキスト会話生成の結果を示します。より詳細な結果については、論文を参照してください。

テキスト分類タスクにおけるゼロショット性能

	TNEWS	IFLYTEK	OCNLI
CPM-Small	0.626	0.584	0.378
CPM-Medium	0.618	0.635	0.379
CPM-Large	0.703	0.708	0.442

中国語熟語穴埋め (ChID) データセットにおける性能

	教師あり	教師なし
CPM-Small	0.657	0.433
CPM-Medium	0.695	0.524
CPM-Large	0.804	0.685

短いテキスト会話生成 (STC) データセットにおける性能

	平均	極値	貪欲法	Dist-1	Dist-2
フューショット (教師なし)
CDial-GPT	0.899	0.797	0.810	1,963 / 0.011	20,814 / 0.126
CPM-Large	0.928	0.805	0.815	3,229 / 0.007	68,008 / 0.154
教師あり
CDial-GPT	0.933	0.814	0.826	2,468 / 0.008	35,634 / 0.127
CPM-Large	0.934	0.810	0.819	3,352 / 0.011	67,310 / 0.233

BibTeXエントリと引用情報

@article{cpm-v1,
  title={CPM: A Large-scale Generative Chinese Pre-trained Language Model},
  author={Zhang, Zhengyan and Han, Xu, and Zhou, Hao, and Ke, Pei, and Gu, Yuxian and Ye, Deming and Qin, Yujia and Su, Yusheng and Ji, Haozhe and Guan, Jian and Qi, Fanchao and Wang, Xiaozhi and Zheng, Yanan and Zeng, Guoyang and Cao, Huanqi and Chen, Shengqi and Li, Daixuan and Sun, Zhenbo and Liu, Zhiyuan and Huang, Minlie and Han, Wentao and Tang, Jie and Li, Juanzi and Sun, Maosong},
  year={2020}
}