🚀 CZERT
このリポジトリには、論文 Czert – Czech BERT-like Model for Language Representation のために学習された Czert-B-base-cased-long-zero-shot モデルが保存されています。詳細については、論文を参照してください。
これは、長文書に対するファインチューニングを行わずに作成された Czert-B-base-cased の長文版です。位置埋め込みは、元の Czert-B モデルの位置埋め込みを単純に繰り返すことで作成されました。トークン化には、BertTokenizer を使用してください。AutoTokenizer とは併用できません。
🚀 クイックスタート
このセクションでは、CZERT モデルに関する概要と使用方法の基本情報を提供します。
✨ 主な機能
- 複数の下流タスク(文レベル、文書レベル、トークンレベル)での評価が可能。
- 事前学習済みモデルとファインチューニング済みモデルが提供されている。
📦 利用可能なモデル
事前学習済みモデル
MLM & NSP のみ の事前学習済みモデルをダウンロードできます。
CZERT-A-v1
CZERT-B-v1
追加の実験の結果、トークナイザーの設定が誤ってエクスポートされていることが判明しました。Czert-B-v1 では、トークナイザーパラメータ "do_lower_case" が誤って true に設定されていました。Czert-A-v1 では、パラメータ "strip_accents" が誤って true に設定されていました。
両方の誤りは v2 で修正されています。
CZERT-A-v2
CZERT-B-v2
ファインチューニング済みモデル
以下のタスク用にファインチューニングされたモデルから選択できます。
💻 使用例
文レベルのタスク
モデルは以下の文レベルのタスクで評価されています。
文書レベルのタスク
モデルは以下の文書レベルのタスクで評価されています。
トークンレベルのタスク
モデルは以下のトークンレベルのタスクで評価されています。
📚 ドキュメント
下流タスクのファインチューニング結果
センチメント分類
|
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
FB |
71.72 ± 0.91 |
73.87 ± 0.50 |
59.50 ± 0.47 |
72.47 ± 0.72 |
76.55 ± 0.14 |
CSFD |
82.80 ± 0.14 |
82.51 ± 0.14 |
75.40 ± 0.18 |
79.58 ± 0.46 |
84.79 ± 0.26 |
センチメント分類タスクの平均 F1 結果。詳細については、論文 を参照してください。
意味的テキスト類似度
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
STA-CNA |
83.335 ± 0.063 |
83.593 ± 0.050 |
43.184 ± 0.125 |
82.942 ± 0.106 |
84.345 ± 0.028 |
STS-SVOB-img |
79.367 ± 0.486 |
79.900 ± 0.810 |
15.739 ± 2.992 |
79.444 ± 0.338 |
83.744 ± 0.395 |
STS-SVOB-hl |
78.833 ± 0.296 |
76.996 ± 0.305 |
33.949 ± 1.807 |
75.089 ± 0.806 |
79.827 ± 0.469 |
事前学習済みの CZERT-A、CZERT-B、mBERT、Pavlov およびランダムに初期化された Albert を使用して達成されたピアソン相関の比較。詳細については、論文 を参照してください。
マルチラベル文書分類
|
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
AUROC |
97.62 ± 0.08 |
97.80 ± 0.06 |
94.35 ± 0.13 |
97.49 ± 0.07 |
98.00 ± 0.04 |
F1 |
83.04 ± 0.16 |
84.08 ± 0.14 |
72.44 ± 0.22 |
82.27 ± 0.17 |
85.06 ± 0.11 |
事前学習済みの CZERT-A、CZERT-B、mBERT、Pavlov およびランダムに初期化された Albert を使用して達成された F1 および AUROC スコアの比較。詳細については、論文 を参照してください。
形態素タグ付け
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
Universal Dependencies |
99.176 ± 0.006 |
99.211 ± 0.008 |
96.590 ± 0.096 |
98.713 ± 0.008 |
99.300 ± 0.009 |
事前学習済みの CZERT-A、CZERT-B、mBERT、Pavlov およびランダムに初期化された Albert を使用して達成された F1 スコアの比較。詳細については、論文 を参照してください。
意味役割ラベリング
| | mBERT | Pavlov | Albert-random | Czert-A | Czert-B | dep-based | gold-dep |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| span | 78.547 ± 0.110 | 79.333 ± 0.080 | 51.365 ± 0.423 | 72.254 ± 0.172 | **81.861 ± 0.102** | - | - |
| syntax | 90.226 ± 0.224 | 90.492 ± 0.040 | 80.747 ± 0.131 | 80.319 ± 0.054 | **91.462 ± 0.062** | 85.19 | 89.52 |
SRL の結果 – dep 列は CoNLL 2009 評価スクリプトのラベル付き F1 で評価され、他の列は NER 評価と同じスパン F1 スコアで評価されます。詳細については、論文 を参照してください。
固有表現認識
|
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
CNEC |
86.225 ± 0.208 |
86.565 ± 0.198 |
34.635 ± 0.343 |
72.945 ± 0.227 |
86.274 ± 0.116 |
BSNLP 2019 |
84.006 ± 1.248 |
86.699 ± 0.370 |
19.773 ± 0.938 |
48.859 ± 0.605 |
86.729 ± 0.344 |
事前学習済みの CZERT-A、CZERT-B、mBERT、Pavlov およびランダムに初期化された Albert を使用して達成された f1 スコアの比較。詳細については、論文 を参照してください。
📄 ライセンス
この作品は、Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License の下でライセンスされています。http://creativecommons.org/licenses/by-nc-sa/4.0/
🔧 引用方法
現時点では、Arxiv 論文 を引用してください。
@article{sido2021czert,
title={Czert -- Czech BERT-like Model for Language Representation},
author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
year={2021},
eprint={2103.13031},
archivePrefix={arXiv},
primaryClass={cs.CL},
journal={arXiv preprint arXiv:2103.13031},
}