Chinese - MACBERT Baseオープンソース言語モデル - 事前学習の差異を軽減し、テキスト処理の最適化を支援

ホーム

Chinese Macbert Base

hflによって開発

MacBERTは、新型MLMを誤り訂正のためのマスク言語モデル事前学習タスクとして用いることで改良されたBERTモデルで、事前学習と微調整段階の差異問題を緩和します。

大規模言語モデル中国語オープンソースライセンス:Apache-2.0 #誤り訂正式マスク事前学習 #中国語NLP最適化 #全単語マスク技術

ダウンロード数 22.48k

リリース時間 : 3/2/2022

モデル概要

MacBERTは改良された中国語BERTモデルで、従来の[MASK]トークンではなく類似語を用いてマスクすることで、事前学習と微調整段階の差異を減らします。

モデル特徴

誤り訂正式MLM

従来の[MASK]トークンではなく類似語を用いてマスクすることで、事前学習と微調整段階の差異を減らします。

全単語マスク

全単語マスク技術を採用し、モデルの完全な単語に対する理解能力を向上させます。

N - gramマスク

N - gramマスクをサポートし、モデルの連続した単語に対する処理能力を強化します。

文順予測

文順予測（SOP）タスクを統合し、モデルの文構造に対する理解を向上させます。

モデル能力

テキスト理解

テキスト生成

テキスト分類

固有表現抽出

質問応答システム

使用事例

自然言語処理

中国語テキスト分類

中国語テキストの感情分析、トピック分類などのタスクに使用します。

固有表現抽出

中国語テキスト中の人名、地名、組織名などの固有表現を識別します。

質問応答システム

中国語の質問応答システムを構築し、ユーザーの質問に回答します。

🚀 MacBERT

MacBERTは、新しいMLM as correction事前学習タスクを搭載した改良型BERTで、事前学習とファインチューニングの不一致を軽減します。

このリポジトリには、論文「Revisiting Pre-trained Models for Chinese Natural Language Processing」のリソースが含まれています。この論文は、「Findings of EMNLP」に掲載されます。カメラレディな論文は、ACL Anthology または arXiv pre-print を通じて閲覧できます。

🚀 クイックスタート

このモデルをロードするには、'Bert'関連の機能を使用してください！

✨ 主な機能

MacBERTの概要

MacBERTは、新しいMLM as correction事前学習タスクを持つ改良型BERTで、事前学習とファインチューニングのギャップを軽減します。ファインチューニング段階では決して出現しない [MASK] トークンでマスキングする代わりに、類似語をマスキングに使用する提案を行っています。類似語は、Synonyms toolkit (Wang and Hu, 2017) を使用して取得され、これはword2vec (Mikolov et al., 2013) の類似度計算に基づいています。N-gramがマスキング対象として選択された場合、個別に類似語を見つけます。まれなケースで、類似語が存在しない場合は、ランダムな単語置換に切り替えます。

事前学習タスクの例

	例
元の文	we use a language model to predict the probability of the next word.
MLM	we use a language [M] to [M] ##di ##ct the pro [M] ##bility of the next word .
単語全体のマスキング	we use a language [M] to [M] [M] [M] the [M] [M] [M] of the next word .
N-gramマスキング	we use a [M] [M] to [M] [M] [M] the [M] [M] [M] [M] [M] next word .
MLM as correction	we use a text system to ca ##lc ##ulate the po ##si ##bility of the next word .

その他の技術

単語全体のマスキング (WWM)
N-gramマスキング
文順予測 (SOP)

重要な点

MacBERTの主なニューラルアーキテクチャは元のBERTと変わらないため、直接置き換えることができます。

📚 ドキュメント

HFLによるその他のリソース

https://github.com/ymcui/HFL-Anthology

論文情報

Revisiting Pre-trained Models for Chinese Natural Language Processing
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

引用

もしこのリソースや論文が役に立った場合は、以下の引用を論文に含めてください。

https://arxiv.org/abs/2004.13922

@inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}