🚀 CZERT
本仓库保存了论文 Czert – Czech BERT-like Model for Language Representation 中训练好的 Czert-B-base-cased-long-zero-shot 模型。更多信息请参考该论文。
这是 Czert-B-base-cased 的长文档版本,未在长文档上进行任何微调。位置嵌入是通过简单重复原始 Czert-B 模型的位置嵌入创建的。分词请使用 BertTokenizer,不能与 AutoTokenizer 一起使用。
🚀 快速开始
本项目提供了预训练模型和微调模型,可用于多种自然语言处理任务,如情感分类、语义文本相似度、多标签文档分类、命名实体识别、形态标注和语义角色标注等。以下将详细介绍可用模型、使用方法和下游任务微调结果。
✨ 主要特性
- 提供了多种预训练和微调模型,适用于不同的自然语言处理任务。
- 对多种下游任务进行了评估,包括句子级、文档级和词元级任务。
- 与其他模型(如 mBERT、SlavicBERT 等)进行了对比,展示了良好的性能。
📚 详细文档
可用模型
你可以下载 仅 MLM & NSP 预训练模型:
CZERT-A-v1
CZERT-B-v1
经过一些额外实验,我们发现分词器配置导出错误。在 Czert-B-v1 中,分词器参数 "do_lower_case" 错误地设置为 true;在 Czert-A-v1 中,参数 "strip_accents" 错误地设置为 true。
这两个错误在 v2 中已修复:
CZERT-A-v2
CZERT-B-v2
或者从 微调模型 中选择:
如何使用 CZERT?
句子级任务
我们在两个句子级任务上评估了我们的模型:
文档级任务
我们在一个文档级任务上评估了我们的模型:
词元级任务
我们在三个词元级任务上评估了我们的模型:
下游任务微调结果
情感分类
数据集 |
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
FB |
71.72 ± 0.91 |
73.87 ± 0.50 |
59.50 ± 0.47 |
72.47 ± 0.72 |
76.55 ± 0.14 |
CSFD |
82.80 ± 0.14 |
82.51 ± 0.14 |
75.40 ± 0.18 |
79.58 ± 0.46 |
84.79 ± 0.26 |
情感分类任务的平均 F1 结果。更多信息请参考 论文。
语义文本相似度
数据集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
STA-CNA |
83.335 ± 0.063 |
83.593 ± 0.050 |
43.184 ± 0.125 |
82.942 ± 0.106 |
84.345 ± 0.028 |
STS-SVOB-img |
79.367 ± 0.486 |
79.900 ± 0.810 |
15.739 ± 2.992 |
79.444 ± 0.338 |
83.744 ± 0.395 |
STS-SVOB-hl |
78.833 ± 0.296 |
76.996 ± 0.305 |
33.949 ± 1.807 |
75.089 ± 0.806 |
79.827 ± 0.469 |
预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在语义文本相似度上的皮尔逊相关系数比较。更多信息请参考 论文。
多标签文档分类
指标 |
mBERT |
SlavicBERT |
ALBERT-r |
Czert-A |
Czert-B |
AUROC |
97.62 ± 0.08 |
97.80 ± 0.06 |
94.35 ± 0.13 |
97.49 ± 0.07 |
98.00 ± 0.04 |
F1 |
83.04 ± 0.16 |
84.08 ± 0.14 |
72.44 ± 0.22 |
82.27 ± 0.17 |
85.06 ± 0.11 |
预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在多标签文档分类上的 F1 和 AUROC 分数比较。更多信息请参考 论文。
形态标注
数据集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
通用依存关系 |
99.176 ± 0.006 |
99.211 ± 0.008 |
96.590 ± 0.096 |
98.713 ± 0.008 |
99.300 ± 0.009 |
预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在形态标注任务上的 F1 分数比较。更多信息请参考 论文。
语义角色标注
类型 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
基于依存关系 |
基于黄金依存关系 |
跨度 |
78.547 ± 0.110 |
79.333 ± 0.080 |
51.365 ± 0.423 |
72.254 ± 0.172 |
81.861 ± 0.102 |
- |
- |
句法 |
90.226 ± 0.224 |
90.492 ± 0.040 |
80.747 ± 0.131 |
80.319 ± 0.054 |
91.462 ± 0.062 |
85.19 |
89.52 |
SRL 结果 – 依存关系列使用 CoNLL 2009 评估脚本的带标签 F1 进行评估,其他列使用与 NER 评估相同的跨度 F1 分数进行评估。更多信息请参考 论文。
命名实体识别
数据集 |
mBERT |
Pavlov |
Albert-random |
Czert-A |
Czert-B |
CNEC |
86.225 ± 0.208 |
86.565 ± 0.198 |
34.635 ± 0.343 |
72.945 ± 0.227 |
86.274 ± 0.116 |
BSNLP 2019 |
84.006 ± 1.248 |
86.699 ± 0.370 |
19.773 ± 0.938 |
48.859 ± 0.605 |
86.729 ± 0.344 |
预训练的 CZERT-A、CZERT-B、mBERT、Pavlov 和随机初始化的 Albert 在命名实体识别任务上的 F1 分数比较。更多信息请参考 论文。
📄 许可证
本作品采用 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 进行许可。
如何引用 CZERT?
目前,请引用 Arxiv 论文:
@article{sido2021czert,
title={Czert -- Czech BERT-like Model for Language Representation},
author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
year={2021},
eprint={2103.13031},
archivePrefix={arXiv},
primaryClass={cs.CL},
journal={arXiv preprint arXiv:2103.13031},
}