🚀 CZERT
本仓库保存了论文 Czert – Czech BERT-like Model for Language Representation 中训练好的 Czert-B 模型。欲了解更多信息,请查阅该论文。
🚀 快速开始
本项目提供了多种预训练和微调后的 CZERT 模型,可用于不同的自然语言处理任务。你可以根据需求下载相应的模型进行使用。
✨ 主要特性
- 提供了预训练的 MLM & NSP 模型以及多个针对不同下游任务的微调模型。
- 在多个下游任务(如情感分类、语义文本相似度、多标签文档分类等)上进行了评估,并取得了不错的效果。
📦 可用模型
预训练模型
你可以下载 仅用于 MLM & NSP 的预训练模型:
CZERT-A-v1
CZERT-B-v1
经过额外实验,我们发现分词器配置导出有误。在 Czert-B-v1 中,分词器参数 "do_lower_case" 被错误地设置为 true;在 Czert-A-v1 中,参数 "strip_accents" 被错误地设置为 true。
这两个问题在 v2 版本中已得到修复:
CZERT-A-v2
CZERT-B-v2
微调模型
你也可以从以下 微调模型 中进行选择:
💻 使用示例
句子级任务
我们在两个句子级任务上对模型进行了评估:
文档级任务
我们在一个文档级任务上对模型进行了评估:
词元级任务
我们在三个词元级任务上对模型进行了评估:
📚 详细文档
下游任务微调结果
情感分类
数据集 |
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
FB |
71.72 ± 0.91 |
73.87 ± 0.50 |
59.50 ± 0.47 |
72.47 ± 0.72 |
76.55 ± 0.14 |
CSFD |
82.80 ± 0.14 |
82.51 ± 0.14 |
75.40 ± 0.18 |
79.58 ± 0.46 |
84.79 ± 0.26 |
情感分类任务的平均 F1 结果。欲了解更多信息,请查阅 论文。
语义文本相似度
数据集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
STA-CNA |
83.335 ± 0.063 |
83.593 ± 0.050 |
43.184 ± 0.125 |
82.942 ± 0.106 |
84.345 ± 0.028 |
STS-SVOB-img |
79.367 ± 0.486 |
79.900 ± 0.810 |
15.739 ± 2.992 |
79.444 ± 0.338 |
83.744 ± 0.395 |
STS-SVOB-hl |
78.833 ± 0.296 |
76.996 ± 0.305 |
33.949 ± 1.807 |
75.089 ± 0.806 |
79.827 ± 0.469 |
使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在语义文本相似度任务上实现的皮尔逊相关系数比较。欲了解更多信息,请查阅 论文。
多标签文档分类
指标 |
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
AUROC |
97.62 ± 0.08 |
97.80 ± 0.06 |
94.35 ± 0.13 |
97.49 ± 0.07 |
98.00 ± 0.04 |
F1 |
83.04 ± 0.16 |
84.08 ± 0.14 |
72.44 ± 0.22 |
82.27 ± 0.17 |
85.06 ± 0.11 |
使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在多标签文档分类任务上实现的 F1 和 AUROC 分数比较。欲了解更多信息,请查阅 论文。
形态标注
数据集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
Universal Dependencies |
99.176 ± 0.006 |
99.211 ± 0.008 |
96.590 ± 0.096 |
98.713 ± 0.008 |
99.300 ± 0.009 |
使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在形态标注任务上实现的 F1 分数比较。欲了解更多信息,请查阅 论文。
语义角色标注
类型 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
依赖关系 |
黄金依赖关系 |
跨度 |
78.547 ± 0.110 |
79.333 ± 0.080 |
51.365 ± 0.423 |
72.254 ± 0.172 |
81.861 ± 0.102 |
- |
- |
语法 |
90.226 ± 0.224 |
90.492 ± 0.040 |
80.747 ± 0.131 |
80.319 ± 0.054 |
91.462 ± 0.062 |
85.19 |
89.52 |
SRL 结果 – 依赖关系列使用 CoNLL 2009 评估脚本的带标签 F1 进行评估,其他列使用与命名实体识别评估相同的跨度 F1 分数进行评估。欲了解更多信息,请查阅 论文。
命名实体识别
数据集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
CNEC |
86.225 ± 0.208 |
86.565 ± 0.198 |
34.635 ± 0.343 |
72.945 ± 0.227 |
86.274 ± 0.116 |
BSNLP 2019 |
84.006 ± 1.248 |
86.699 ± 0.370 |
19.773 ± 0.938 |
48.859 ± 0.605 |
86.729 ± 0.344 |
使用预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在命名实体识别任务上实现的 F1 分数比较。欲了解更多信息,请查阅 论文。
📄 许可证
本作品采用 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 进行许可。
🔗 引用方式
目前,请引用 Arxiv 论文:
@article{sido2021czert,
title={Czert -- Czech BERT-like Model for Language Representation},
author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
year={2021},
eprint={2103.13031},
archivePrefix={arXiv},
primaryClass={cs.CL},
journal={arXiv preprint arXiv:2103.13031},
}