Czert-B-base-casedオープンソース言語モデル - チェコ語用に特別設計され、NLPタスクで多言語モデルを上回る性能を発揮

ホーム

Czert B Base Cased

UWB-AIRによって開発

CZERTはチェコ語に特化して訓練されたBERTに類似した言語表現モデルで、複数のチェコ語NLPタスクで多言語BERTモデルよりも優れた性能を発揮します。

大規模言語モデル

Transformers

その他#チェコ語BERT #マルチタスク微調整 #形態標注

ダウンロード数 560

リリース時間 : 3/2/2022

モデル概要

CZERTはBERTアーキテクチャに基づくチェコ語の事前学習言語モデルで、基礎版(CZERT - B)とALBERT版(CZERT - A)の2つのバリエーションがあり、感情分析、意味類似度、固有表現抽出などのタスクで優れた性能を発揮します。

モデル特徴

チェコ語最適化

チェコ語に特化して訓練されており、多言語BERTよりもチェコ語タスクで優れた性能を発揮します。

マルチタスク対応

トークンレベルからドキュメントレベルまでの複数のNLPタスクをサポートします。

性能卓越

複数のチェコ語NLPベンチマークテストでmBERTやSlavicBERTなどのモデルを上回っています。

モデル能力

テキスト分類

意味類似度計算

固有表現抽出

形態標注

意味役割標注

感情分析

使用事例

感情分析

ソーシャルメディアコメントの感情分類

FacebookやCSFD(チェコ映画データベース)のコメントの感情傾向を分析します。

CSFDデータセットで84.79%のF1スコアを達成しました。

意味理解

ニューステキストの類似度計算

チェコ通信社(CNA)のテキストの意味類似度を評価します。

ピアソン相関係数が84.345に達しました。

情報抽出

固有表現抽出

テキストからチェコ語の人名、地名などのエンティティを識別します。

CNECデータセットで86.274%のF1スコアを達成しました。

🚀 CZERT

このリポジトリには、論文 Czert – Czech BERT-like Model for Language Representation のために学習されたCzert-Bモデルが保管されています。詳細については、論文を参照してください。

🚀 クイックスタート

このセクションでは、CZERTの基本的な使い方や利用可能なモデルについて説明します。

✨ 主な機能

CZERTは、チェコ語の言語表現に特化したBERTライクなモデルです。以下のようなタスクに対応しています。

文レベルのタスク: 感情分類、意味的テキスト類似度
文書レベルのタスク: マルチラベル文書分類
トークンレベルのタスク: 固有表現認識、形態素タグ付け、意味役割ラベリング

📦 インストール

このセクションでは、CZERTモデルのダウンロード方法について説明します。

利用可能なモデル

以下の事前学習済みモデルをダウンロードできます。

MLM & NSPのみの事前学習済みモデル

~~CZERT-A-v1 CZERT-B-v1~~

追加の実験の結果、トークナイザの設定が誤ってエクスポートされていることが判明しました。Czert-B-v1では、トークナイザパラメータ "do_lower_case" が誤ってtrueに設定されており、Czert-A-v1ではパラメータ "strip_accents" が誤ってtrueに設定されていました。

これらの誤りはv2で修正されています。 CZERT-A-v2 CZERT-B-v2

ファインチューニング済みモデル

以下のファインチューニング済みモデルから選択できます。

タスク	モデル
感情分類 (FacebookまたはCSFD)	CZERT-A-sentiment-FB CZERT-B-sentiment-FB CZERT-A-sentiment-CSFD CZERT-B-sentiment-CSFD
意味的テキスト類似度 (チェコ通信社)	CZERT-A-sts-CNA CZERT-B-sts-CNA
固有表現認識	CZERT-A-ner-CNEC CZERT-B-ner-CNEC PAV-ner-CNEC CZERT-A-ner-BSNLP CZERT-B-ner-BSNLP PAV-ner-BSNLP
形態素タグ付け	CZERT-A-morphtag-126k CZERT-B-morphtag-126k
意味役割ラベリング	CZERT-A-srl CZERT-B-srl

💻 使用例

文レベルのタスク

CZERTモデルは、以下の文レベルのタスクに対応しています。

感情分類
意味的テキスト類似度

文書レベルのタスク

CZERTモデルは、以下の文書レベルのタスクに対応しています。

マルチラベル文書分類

トークンレベルのタスク

CZERTモデルは、以下のトークンレベルのタスクに対応しています。

固有表現認識
形態素タグ付け
意味役割ラベリング

📚 詳細ドキュメント

このセクションでは、CZERTの下流タスクのファインチューニング結果について説明します。

感情分類

	mBERT	SlavicBERT	ALBERT-r	Czert-A	Czert-B
FB	71.72 ± 0.91	73.87 ± 0.50	59.50 ± 0.47	72.47 ± 0.72	76.55 ± 0.14
CSFD	82.80 ± 0.14	82.51 ± 0.14	75.40 ± 0.18	79.58 ± 0.46	84.79 ± 0.26

感情分類タスクの平均F1結果です。詳細については、論文を参照してください。

意味的テキスト類似度

	mBERT	Pavlov	Albert-random	Czert-A	Czert-B
STA-CNA	83.335 ± 0.063	83.593 ± 0.050	43.184 ± 0.125	82.942 ± 0.106	84.345 ± 0.028
STS-SVOB-img	79.367 ± 0.486	79.900 ± 0.810	15.739 ± 2.992	79.444 ± 0.338	83.744 ± 0.395
STS-SVOB-hl	78.833 ± 0.296	76.996 ± 0.305	33.949 ± 1.807	75.089 ± 0.806	79.827 ± 0.469

事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたピアソン相関の比較です。詳細については、論文を参照してください。

マルチラベル文書分類

	mBERT	SlavicBERT	ALBERT-r	Czert-A	Czert-B
AUROC	97.62 ± 0.08	97.80 ± 0.06	94.35 ± 0.13	97.49 ± 0.07	98.00 ± 0.04
F1	83.04 ± 0.16	84.08 ± 0.14	72.44 ± 0.22	82.27 ± 0.17	85.06 ± 0.11

事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたF1およびAUROCスコアの比較です。詳細については、論文を参照してください。

形態素タグ付け

	mBERT	Pavlov	Albert-random	Czert-A	Czert-B
Universal Dependencies	99.176 ± 0.006	99.211 ± 0.008	96.590 ± 0.096	98.713 ± 0.008	99.300 ± 0.009

事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたF1スコアの比較です。詳細については、論文を参照してください。

意味役割ラベリング

| | mBERT | Pavlov | Albert-random | Czert-A | Czert-B | dep-based | gold-dep | |:------:|:----------:|:----------:|:-------------:|:----------:|:----------:|:---------:|:--------:| | span | 78.547 ± 0.110 | 79.333 ± 0.080 | 51.365 ± 0.423 | 72.254 ± 0.172 | **81.861 ± 0.102** | \\\\- | \\\\- | | syntax | 90.226 ± 0.224 | 90.492 ± 0.040 | 80.747 ± 0.131 | 80.319 ± 0.054 | **91.462 ± 0.062** | 85.19 | 89.52 |

SRLの結果 - dep列はCoNLL 2009評価スクリプトのラベル付きF1で評価され、他の列は固有表現認識評価と同じspan F1スコアで評価されます。詳細については、論文を参照してください。

固有表現認識

	mBERT	Pavlov	Albert-random	Czert-A	Czert-B
CNEC	86.225 ± 0.208	86.565 ± 0.198	34.635 ± 0.343	72.945 ± 0.227	86.274 ± 0.116
BSNLP 2019	84.006 ± 1.248	86.699 ± 0.370	19.773 ± 0.938	48.859 ± 0.605	86.729 ± 0.344

📄 ライセンス

この作品は、Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Licenseの下でライセンスされています。http://creativecommons.org/licenses/by-nc-sa/4.0/

🔗 引用方法

現時点では、以下のように論文を引用してください。

@article{sido2021czert,
      title={Czert -- Czech BERT-like Model for Language Representation}, 
      author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
      year={2021},
      eprint={2103.13031},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      journal={arXiv preprint arXiv:2103.13031},
}