🚀 中国語BART-Base
中国語BART-Baseは、テキスト生成に使用されるモデルです。BARTアーキテクチャに基づいており、中国語のテキスト処理に適しており、様々な自然言語処理タスクで役立ちます。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
>>> from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("fnlp/bart-base-chinese")
>>> model = BartForConditionalGeneration.from_pretrained("fnlp/bart-base-chinese")
>>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer)
>>> text2text_generator("北京是[MASK]的首都", max_length=50, do_sample=False)
[{'generated_text': '北 京 是 中 国 的 首 都'}]
⚠️ 重要な注意事項
モデルの語彙を処理するには、BertTokenizerを使用してください。元のBartTokenizerを使用しないでください。
✨ 主な機能
モデルの更新
2022年12月30日
CPTと中国語BARTの更新バージョンがリリースされました。新しいバージョンでは、以下の部分が変更されています。
- 語彙表:旧バージョンのBERT語彙表を、訓練データから構築された、サイズが51271のより大きな語彙表に置き換えました。具体的な操作は以下の通りです。1) 欠落している6800以上の中国語文字(その大部分は繁体字)を追加しました。2) 冗長なトークン(例えば、##接頭辞の付いた中国語文字トークン)を削除しました。3) いくつかの英語トークンを追加して、未登録語(OOV)を減らしました。
- 位置埋め込み:最大位置埋め込み
max_position_embeddings
を512から1024に拡張しました。
旧バージョンのチェックポイントを使用して新しいバージョンのモデルを初期化し、語彙のアライメントを行いました。旧チェックポイントで見つかったトークン埋め込みをコピーし、その他の新しく追加されたパラメータはランダムに初期化しました。新しいCPTと中国語BARTをさらに50Kステップの訓練を行い、バッチサイズは2048、最大シーケンス長は1024、ピーク学習率は2e - 5、ウォームアップ比率は0.1としました。
性能比較
以前のチェックポイントと比較した結果は以下の通りです。
|
AFQMC |
IFLYTEK |
CSL - sum |
LCSTS |
AVG |
以前のバージョン |
|
|
|
|
|
bart - base |
73.0 |
60 |
62.1 |
37.8 |
58.23 |
cpt - base |
75.1 |
60.5 |
63.0 |
38.2 |
59.20 |
bart - large |
75.7 |
62.1 |
64.2 |
40.6 |
60.65 |
cpt - large |
75.9 |
61.8 |
63.7 |
42.0 |
60.85 |
更新バージョン |
|
|
|
|
|
bart - base |
73.03 |
61.25 |
61.51 |
38.78 |
58.64 |
cpt - base |
74.40 |
61.23 |
62.09 |
38.81 |
59.13 |
bart - large |
75.81 |
61.52 |
64.62 |
40.90 |
60.71 |
cpt - large |
75.97 |
61.63 |
63.83 |
42.08 |
60.88 |
結果から、更新後のモデルは以前のチェックポイントと同等の性能を維持していることがわかります。更新後のモデルが以前のモデルよりもわずかに劣る場合もありますが、その理由は以下の通りです。1) 追加の訓練ステップが性能向上に大きな影響を与えなかった。2) 一部の下流タスクは、新しく追加されたトークンやより長いエンコードシーケンスの影響を受けず、微調整のハイパーパラメータに敏感です。
⚠️ 重要な注意事項
更新後のモデルを使用するには、modeling_cpt.py
(新しいバージョンはここをクリック)と語彙表(キャッシュを更新)を更新してください。
📚 ドキュメント
モデルの説明
これは中国語BART - Baseの実装です。
CPT: A Pre - Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation
著者:Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe, Hujun Bao, Xipeng Qiu
Githubリンク:https://github.com/fastnlp/CPT
📄 ライセンス
引用情報
@article{shao2021cpt,
title={CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation},
author={Yunfan Shao and Zhichao Geng and Yitao Liu and Junqi Dai and Fei Yang and Li Zhe and Hujun Bao and Xipeng Qiu},
journal={arXiv preprint arXiv:2109.05729},
year={2021}
}