🚀 CZERT
このリポジトリには、論文 Czert – Czech BERT-like Model for Language Representation のために学習されたCzert-Bモデルが保管されています。詳細については、論文を参照してください。
🚀 クイックスタート
このセクションでは、CZERTの基本的な使い方や利用可能なモデルについて説明します。
✨ 主な機能
CZERTは、チェコ語の言語表現に特化したBERTライクなモデルです。以下のようなタスクに対応しています。
- 文レベルのタスク: 感情分類、意味的テキスト類似度
- 文書レベルのタスク: マルチラベル文書分類
- トークンレベルのタスク: 固有表現認識、形態素タグ付け、意味役割ラベリング
📦 インストール
このセクションでは、CZERTモデルのダウンロード方法について説明します。
利用可能なモデル
以下の事前学習済みモデルをダウンロードできます。
MLM & NSPのみの事前学習済みモデル
CZERT-A-v1
CZERT-B-v1
追加の実験の結果、トークナイザの設定が誤ってエクスポートされていることが判明しました。Czert-B-v1では、トークナイザパラメータ "do_lower_case" が誤ってtrueに設定されており、Czert-A-v1ではパラメータ "strip_accents" が誤ってtrueに設定されていました。
これらの誤りはv2で修正されています。
CZERT-A-v2
CZERT-B-v2
ファインチューニング済みモデル
以下のファインチューニング済みモデルから選択できます。
💻 使用例
文レベルのタスク
CZERTモデルは、以下の文レベルのタスクに対応しています。
文書レベルのタスク
CZERTモデルは、以下の文書レベルのタスクに対応しています。
トークンレベルのタスク
CZERTモデルは、以下のトークンレベルのタスクに対応しています。
📚 詳細ドキュメント
このセクションでは、CZERTの下流タスクのファインチューニング結果について説明します。
感情分類
|
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
FB |
71.72 ± 0.91 |
73.87 ± 0.50 |
59.50 ± 0.47 |
72.47 ± 0.72 |
76.55 ± 0.14 |
CSFD |
82.80 ± 0.14 |
82.51 ± 0.14 |
75.40 ± 0.18 |
79.58 ± 0.46 |
84.79 ± 0.26 |
感情分類タスクの平均F1結果です。詳細については、論文 を参照してください。
意味的テキスト類似度
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
STA-CNA |
83.335 ± 0.063 |
83.593 ± 0.050 |
43.184 ± 0.125 |
82.942 ± 0.106 |
84.345 ± 0.028 |
STS-SVOB-img |
79.367 ± 0.486 |
79.900 ± 0.810 |
15.739 ± 2.992 |
79.444 ± 0.338 |
83.744 ± 0.395 |
STS-SVOB-hl |
78.833 ± 0.296 |
76.996 ± 0.305 |
33.949 ± 1.807 |
75.089 ± 0.806 |
79.827 ± 0.469 |
事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたピアソン相関の比較です。詳細については、論文 を参照してください。
マルチラベル文書分類
|
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
AUROC |
97.62 ± 0.08 |
97.80 ± 0.06 |
94.35 ± 0.13 |
97.49 ± 0.07 |
98.00 ± 0.04 |
F1 |
83.04 ± 0.16 |
84.08 ± 0.14 |
72.44 ± 0.22 |
82.27 ± 0.17 |
85.06 ± 0.11 |
事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたF1およびAUROCスコアの比較です。詳細については、論文 を参照してください。
形態素タグ付け
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
Universal Dependencies |
99.176 ± 0.006 |
99.211 ± 0.008 |
96.590 ± 0.096 |
98.713 ± 0.008 |
99.300 ± 0.009 |
事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたF1スコアの比較です。詳細については、論文 を参照してください。
意味役割ラベリング
| | mBERT | Pavlov | Albert-random | Czert-A | Czert-B | dep-based | gold-dep |
|:------:|:----------:|:----------:|:-------------:|:----------:|:----------:|:---------:|:--------:|
| span | 78.547 ± 0.110 | 79.333 ± 0.080 | 51.365 ± 0.423 | 72.254 ± 0.172 | **81.861 ± 0.102** | \\\\- | \\\\- |
| syntax | 90.226 ± 0.224 | 90.492 ± 0.040 | 80.747 ± 0.131 | 80.319 ± 0.054 | **91.462 ± 0.062** | 85.19 | 89.52 |
SRLの結果 - dep列はCoNLL 2009評価スクリプトのラベル付きF1で評価され、他の列は固有表現認識評価と同じspan F1スコアで評価されます。詳細については、論文 を参照してください。
固有表現認識
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
CNEC |
86.225 ± 0.208 |
86.565 ± 0.198 |
34.635 ± 0.343 |
72.945 ± 0.227 |
86.274 ± 0.116 |
BSNLP 2019 |
84.006 ± 1.248 |
86.699 ± 0.370 |
19.773 ± 0.938 |
48.859 ± 0.605 |
86.729 ± 0.344 |
事前学習されたCZERT-A、CZERT-B、mBERT、Pavlov、およびランダムに初期化されたAlbertを使用して達成されたF1スコアの比較です。詳細については、論文 を参照してください。
📄 ライセンス
この作品は、Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International Licenseの下でライセンスされています。http://creativecommons.org/licenses/by-nc-sa/4.0/
🔗 引用方法
現時点では、以下のように 論文 を引用してください。
@article{sido2021czert,
title={Czert -- Czech BERT-like Model for Language Representation},
author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
year={2021},
eprint={2103.13031},
archivePrefix={arXiv},
primaryClass={cs.CL},
journal={arXiv preprint arXiv:2103.13031},
}