🚀 CZERT
本倉庫保存了論文 Czert – Czech BERT-like Model for Language Representation 中訓練好的 Czert-B-base-cased-long-zero-shot 模型。更多信息請參考該論文。
這是 Czert-B-base-cased 的長文檔版本,未在長文檔上進行任何微調。位置嵌入是通過簡單重複原始 Czert-B 模型的位置嵌入創建的。分詞請使用 BertTokenizer,不能與 AutoTokenizer 一起使用。
🚀 快速開始
本項目提供了預訓練模型和微調模型,可用於多種自然語言處理任務,如情感分類、語義文本相似度、多標籤文檔分類、命名實體識別、形態標註和語義角色標註等。以下將詳細介紹可用模型、使用方法和下游任務微調結果。
✨ 主要特性
- 提供了多種預訓練和微調模型,適用於不同的自然語言處理任務。
- 對多種下游任務進行了評估,包括句子級、文檔級和詞元級任務。
- 與其他模型(如 mBERT、SlavicBERT 等)進行了對比,展示了良好的性能。
📚 詳細文檔
可用模型
你可以下載 僅 MLM & NSP 預訓練模型:
CZERT-A-v1
CZERT-B-v1
經過一些額外實驗,我們發現分詞器配置導出錯誤。在 Czert-B-v1 中,分詞器參數 "do_lower_case" 錯誤地設置為 true;在 Czert-A-v1 中,參數 "strip_accents" 錯誤地設置為 true。
這兩個錯誤在 v2 中已修復:
CZERT-A-v2
CZERT-B-v2
或者從 微調模型 中選擇:
如何使用 CZERT?
句子級任務
我們在兩個句子級任務上評估了我們的模型:
文檔級任務
我們在一個文檔級任務上評估了我們的模型:
詞元級任務
我們在三個詞元級任務上評估了我們的模型:
下游任務微調結果
情感分類
數據集 |
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
FB |
71.72 ± 0.91 |
73.87 ± 0.50 |
59.50 ± 0.47 |
72.47 ± 0.72 |
76.55 ± 0.14 |
CSFD |
82.80 ± 0.14 |
82.51 ± 0.14 |
75.40 ± 0.18 |
79.58 ± 0.46 |
84.79 ± 0.26 |
情感分類任務的平均 F1 結果。更多信息請參考 論文。
語義文本相似度
數據集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
STA-CNA |
83.335 ± 0.063 |
83.593 ± 0.050 |
43.184 ± 0.125 |
82.942 ± 0.106 |
84.345 ± 0.028 |
STS-SVOB-img |
79.367 ± 0.486 |
79.900 ± 0.810 |
15.739 ± 2.992 |
79.444 ± 0.338 |
83.744 ± 0.395 |
STS-SVOB-hl |
78.833 ± 0.296 |
76.996 ± 0.305 |
33.949 ± 1.807 |
75.089 ± 0.806 |
79.827 ± 0.469 |
預訓練的 CZERT-A、CZERT-B、mBERT、Pavlov 和隨機初始化的 Albert 在語義文本相似度上的皮爾遜相關係數比較。更多信息請參考 論文。
多標籤文檔分類
指標 |
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
AUROC |
97.62 ± 0.08 |
97.80 ± 0.06 |
94.35 ± 0.13 |
97.49 ± 0.07 |
98.00 ± 0.04 |
F1 |
83.04 ± 0.16 |
84.08 ± 0.14 |
72.44 ± 0.22 |
82.27 ± 0.17 |
85.06 ± 0.11 |
預訓練的 CZERT-A、CZERT-B、mBERT、Pavlov 和隨機初始化的 Albert 在多標籤文檔分類上的 F1 和 AUROC 分數比較。更多信息請參考 論文。
形態標註
數據集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
通用依存關係 |
99.176 ± 0.006 |
99.211 ± 0.008 |
96.590 ± 0.096 |
98.713 ± 0.008 |
99.300 ± 0.009 |
預訓練的 CZERT-A、CZERT-B、mBERT、Pavlov 和隨機初始化的 Albert 在形態標註任務上的 F1 分數比較。更多信息請參考 論文。
語義角色標註
類型 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
基於依存關係 |
基於黃金依存關係 |
跨度 |
78.547 ± 0.110 |
79.333 ± 0.080 |
51.365 ± 0.423 |
72.254 ± 0.172 |
81.861 ± 0.102 |
- |
- |
句法 |
90.226 ± 0.224 |
90.492 ± 0.040 |
80.747 ± 0.131 |
80.319 ± 0.054 |
91.462 ± 0.062 |
85.19 |
89.52 |
SRL 結果 – 依存關係列使用 CoNLL 2009 評估腳本的帶標籤 F1 進行評估,其他列使用與 NER 評估相同的跨度 F1 分數進行評估。更多信息請參考 論文。
命名實體識別
數據集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
CNEC |
86.225 ± 0.208 |
86.565 ± 0.198 |
34.635 ± 0.343 |
72.945 ± 0.227 |
86.274 ± 0.116 |
BSNLP 2019 |
84.006 ± 1.248 |
86.699 ± 0.370 |
19.773 ± 0.938 |
48.859 ± 0.605 |
86.729 ± 0.344 |
預訓練的 CZERT-A、CZERT-B、mBERT、Pavlov 和隨機初始化的 Albert 在命名實體識別任務上的 F1 分數比較。更多信息請參考 論文。
📄 許可證
本作品採用 知識共享署名 - 非商業性使用 - 相同方式共享 4.0 國際許可協議 進行許可。
如何引用 CZERT?
目前,請引用 Arxiv 論文:
@article{sido2021czert,
title={Czert -- Czech BERT-like Model for Language Representation},
author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
year={2021},
eprint={2103.13031},
archivePrefix={arXiv},
primaryClass={cs.CL},
journal={arXiv preprint arXiv:2103.13031},
}