chinese-macbert-largeオープンソース中国語モデル - トレーニングの不一致を緩和してテキスト処理を支援

ホーム

Chinese Macbert Large

hflによって開発

MacBERTは改良された中国語BERTモデルで、Mを校正するマスク言語モデル事前学習タスクを採用し、事前学習と微調整段階の不一致問題を緩和します。

大規模言語モデル中国語オープンソースライセンス:Apache-2.0 #校正型マスク言語モデル #中国語事前学習の最適化 #全単語N-gramマスク

ダウンロード数 13.05k

リリース時間 : 3/2/2022

モデル概要

MacBERTは改良された中国語BERTモデルで、従来の[MASK]タグではなく類似語を使用してマスクし、全単語マスク、N-gramマスク、文順予測などの技術を組み合わせることで、中国語の自然言語処理タスクの性能を向上させます。

モデル特徴

校正型MLM

[MASK]タグではなく類似語を使用してマスクし、事前学習と微調整段階の不一致問題を緩和します。

全単語マスク

全単語マスク技術を採用し、モデルの中国語単語に対する理解能力を向上させます。

N-gramマスク

N-gramレベルのマスクをサポートし、モデルの長文に対する理解を強化します。

文順予測

文順予測タスクを統合し、モデルのテキストの連貫性に対する理解を向上させます。

モデル能力

中国語テキスト理解

テキスト分類

固有表現認識

質問応答システム

テキスト類似度計算

使用事例

自然言語処理

中国語テキスト分類

中国語テキストの感情分析、トピック分類などのタスクに使用します。

固有表現認識

中国語テキスト中の人名、地名、機関名などのエンティティを識別します。

質問応答システム

中国語の質問応答システムを構築し、テキストに基づく質問に回答します。

🚀 MacBERT

MacBERTは、新しいMLM as correction事前学習タスクを持つ改良型のBERTです。このタスクにより、事前学習とファインチューニングの不一致を軽減しています。

🚀 クイックスタート

このリポジトリには、論文「Revisiting Pre-trained Models for Chinese Natural Language Processing」のリソースが含まれています。この論文は、Findings of EMNLPに掲載されます。カメラレディな論文は、ACL Anthology または arXiv pre-print を通じて読むことができます。

Revisiting Pre-trained Models for Chinese Natural Language Processing
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu

また、以下のプロジェクトにも興味を持つかもしれません。

Chinese BERTシリーズ: https://github.com/ymcui/Chinese-BERT-wwm
Chinese ELECTRA: https://github.com/ymcui/Chinese-ELECTRA
Chinese XLNet: https://github.com/ymcui/Chinese-XLNet
知識蒸留ツールキット - TextBrewer: https://github.com/airaria/TextBrewer

HFLによるその他のリソース: https://github.com/ymcui/HFL-Anthology

✨ 主な機能

MacBERTの概要

MacBERTは、新しい事前学習タスクであるMLM as correctionを用いた改良型BERTです。これにより、事前学習とファインチューニングの間のギャップを軽減します。

事前学習タスクの改良

通常の[MASK]トークンを使用する代わりに、類似単語を使用してマスキングを行います。類似単語は、Synonyms toolkit (Wang and Hu, 2017)を用いて取得されます。このツールキットは、word2vec (Mikolov et al., 2013)の類似度計算に基づいています。N-gramをマスクする場合、個々の単語に対して類似単語を見つけます。類似単語が存在しない場合は、ランダムな単語置換にフォールバックします。

事前学習タスクの例

	例
元の文	we use a language model to predict the probability of the next word.
MLM	we use a language [M] to [M] ##di ##ct the pro [M] ##bility of the next word .
単語全体のマスキング	we use a language [M] to [M] [M] [M] the [M] [M] [M] of the next word .
N-gramマスキング	we use a [M] [M] to [M] [M] [M] the [M] [M] [M] [M] [M] next word .
MLM as correction	we use a text system to ca ##lc ##ulate the po ##si ##bility of the next word .

その他の技術

単語全体のマスキング (Whole Word Masking, WWM)
N-gramマスキング
文順予測 (Sentence-Order Prediction, SOP)

アーキテクチャの互換性

MacBERTは、主なニューラルアーキテクチャに違いがないため、元のBERTと直接置き換えることができます。

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。詳細はLICENSEを参照してください。

🔧 技術詳細

詳細な技術情報については、論文「Revisiting Pre-trained Models for Chinese Natural Language Processing」を参照してください。

引用

このリソースや論文が役に立った場合は、以下の引用を論文に含めていただけると幸いです。

https://arxiv.org/abs/2004.13922

@inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}