bart-base-chineseオープンソースモデル - 中国語理解と生成に特化し、テキストからテキストへの創作をサポート

ホーム

Bart Base Chinese

fnlpによって開発

中国語の理解と生成を対象とした事前学習済みの非平衡Transformerモデルで、テキスト-to-テキスト生成タスクをサポートします。

大規模言語モデル

Transformers

中国語#中国語テキスト生成 #シーケンス-to-シーケンス #長テキスト処理

ダウンロード数 6,504

リリース時間 : 3/2/2022

モデル概要

中国語BART基礎版はTransformerアーキテクチャに基づくシーケンス-to-シーケンスモデルで、中国語テキストの理解と生成タスクに特化して最適化されています。このモデルは事前学習により中国語の言語表現を学習し、様々なテキスト生成タスクを処理することができます。

モデル特徴

最適化された中国語語彙表

学習データから構築された51271語の新しい語彙表を採用し、欠落している漢字を補完し、冗長なトークンを削除することで、中国語処理能力を向上させます。

拡張された位置符号化

最大位置符号化長を512から1024に拡張し、より長いテキストシーケンスの処理をサポートします。

増分学習の最適化

語彙アライメント方式で旧版のパラメータを引き継ぎ、新しいパラメータをランダムに初期化した後、5万ステップの増分学習を行います。

モデル能力

中国語テキスト生成

テキスト要約

テキスト補完

質問生成

使用事例

テキスト生成

首都識別

都市と国の首都の関係を識別して生成します。

入力「北京是[MASK]的首都」、出力「北京是中国的首都」

テキスト要約

中国語文書要約

中国語文書の簡潔な要約を生成します。

CSL要約タスクで61.51のROUGE-Lスコアを達成しました。

🚀 中国語BART-Base

中国語BART-Baseは、テキスト生成に使用されるモデルです。BARTアーキテクチャに基づいており、中国語のテキスト処理に適しており、様々な自然言語処理タスクで役立ちます。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

>>> from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("fnlp/bart-base-chinese")
>>> model = BartForConditionalGeneration.from_pretrained("fnlp/bart-base-chinese")
>>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
>>> text2text_generator("北京是[MASK]的首都", max_length=50, do_sample=False)
    [{'generated_text': '北 京 是 中 国 的 首 都'}]

⚠️ 重要な注意事項

モデルの語彙を処理するには、BertTokenizerを使用してください。元のBartTokenizerを使用しないでください。

✨ 主な機能

モデルの更新

2022年12月30日

CPTと中国語BARTの更新バージョンがリリースされました。新しいバージョンでは、以下の部分が変更されています。

語彙表：旧バージョンのBERT語彙表を、訓練データから構築された、サイズが51271のより大きな語彙表に置き換えました。具体的な操作は以下の通りです。1) 欠落している6800以上の中国語文字（その大部分は繁体字）を追加しました。2) 冗長なトークン（例えば、##接頭辞の付いた中国語文字トークン）を削除しました。3) いくつかの英語トークンを追加して、未登録語（OOV）を減らしました。
位置埋め込み：最大位置埋め込み max_position_embeddings を512から1024に拡張しました。

旧バージョンのチェックポイントを使用して新しいバージョンのモデルを初期化し、語彙のアライメントを行いました。旧チェックポイントで見つかったトークン埋め込みをコピーし、その他の新しく追加されたパラメータはランダムに初期化しました。新しいCPTと中国語BARTをさらに50Kステップの訓練を行い、バッチサイズは2048、最大シーケンス長は1024、ピーク学習率は2e - 5、ウォームアップ比率は0.1としました。

性能比較

以前のチェックポイントと比較した結果は以下の通りです。

	AFQMC	IFLYTEK	CSL - sum	LCSTS	AVG
以前のバージョン
bart - base	73.0	60	62.1	37.8	58.23
cpt - base	75.1	60.5	63.0	38.2	59.20
bart - large	75.7	62.1	64.2	40.6	60.65
cpt - large	75.9	61.8	63.7	42.0	60.85
更新バージョン
bart - base	73.03	61.25	61.51	38.78	58.64
cpt - base	74.40	61.23	62.09	38.81	59.13
bart - large	75.81	61.52	64.62	40.90	60.71
cpt - large	75.97	61.63	63.83	42.08	60.88

結果から、更新後のモデルは以前のチェックポイントと同等の性能を維持していることがわかります。更新後のモデルが以前のモデルよりもわずかに劣る場合もありますが、その理由は以下の通りです。1) 追加の訓練ステップが性能向上に大きな影響を与えなかった。2) 一部の下流タスクは、新しく追加されたトークンやより長いエンコードシーケンスの影響を受けず、微調整のハイパーパラメータに敏感です。

⚠️ 重要な注意事項

更新後のモデルを使用するには、modeling_cpt.py（新しいバージョンはここをクリック）と語彙表（キャッシュを更新）を更新してください。

📚 ドキュメント

モデルの説明

これは中国語BART - Baseの実装です。

CPT: A Pre - Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

著者：Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe, Hujun Bao, Xipeng Qiu

Githubリンク：https://github.com/fastnlp/CPT

📄 ライセンス

引用情報

@article{shao2021cpt,
  title={CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation}, 
  author={Yunfan Shao and Zhichao Geng and Yitao Liu and Junqi Dai and Fei Yang and Li Zhe and Hujun Bao and Xipeng Qiu},
  journal={arXiv preprint arXiv:2109.05729},
  year={2021}
}