🚀 bert-ancient-chinese
bert-ancient-chinese
是一个用于古汉语自动处理领域的预训练模型。在人工智能和数字人文浪潮下,现代中文自动分析成果显著,但古汉语自动分析研究相对薄弱。该模型通过进一步预训练优化,在古汉语处理任务中表现出色,能满足相关领域的实际需求。
🚀 快速开始
Huggingface Transformers
基于 Huggingface Transformers 的 from_pretrained
方法可以直接在线获取 bert-ancient-chinese
模型。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Jihuai/bert-ancient-chinese")
model = AutoModel.from_pretrained("Jihuai/bert-ancient-chinese")
✨ 主要特性
- 更大的词汇表:古汉语文本多为繁体字且包含大量生僻字,之前的预训练模型的
vocab table
(词汇表)可能没有涵盖这些生僻字。bert-ancient-chinese
通过在大规模语料库中学习,进一步扩展了预训练模型的 vocab
(词典)。最终的 vocab table
大小为 38208,相比 bert-base-chinese
的词汇大小 21128 和 siku-bert
的词汇大小 29791,bert-ancient-chinese
拥有 更大的词汇量,并且包含更多生僻词汇,这更有利于提高模型在下游任务中的性能。vocab table
即词汇表,包含在预训练模型的 vocab.txt
中。
- 更大的训练集:
bert-ancient-chinese
使用了更大的训练集。与 siku-bert
仅使用 “四库全书” 作为训练数据集不同,我们使用了更大规模的数据集(约为 “四库全书” 的六倍),涵盖了经部、道部、佛部、儒部、诗部、史部、医部、艺部、易部和子部,内容比 “四库全书” 更丰富、范围更广。
- 领域自适应预训练:基于
Domain-Adaptive Pretraining
的思想,bert-ancient-chinese
在 bert-base-chinese
的基础上进行训练,并结合古汉语语料库,得到了适用于古汉语自动处理领域的预训练模型。
📦 安装指南
从 Huggingface 下载
通过 Huggingface 的官方网站直接下载,官方网站上的模型已同步更新到最新版本:
从网盘下载
下载地址:
模型 |
链接 |
bert-ancient-chinese |
Link 提取码:qs7x |
📚 详细文档
模型背景
随着当前人工智能和数字人文浪潮席卷全球,现代中文的自动分析取得了巨大成果。然而,古汉语的自动分析和研究相对薄弱,难以满足国学、历史、语文学、中国史以及国学和传统文化教育的实际需求。古汉语在文字、词汇和词性方面存在诸多争议,资源建设也面临诸多困难。数字人文研究需要大规模语料库和高性能的古代自然语言处理工具。鉴于预训练语言模型在英文和现代中文文本的文本挖掘准确性方面有了极大提高,因此迫切需要用于古文本自动处理的预训练模型。
模型训练
2022 年,我们参加了 EvaHan 2022,这是古汉语领域的首次 NLP 工具评估竞赛。bert-ancient-chinese
经过训练,以进一步优化开放环境下的模型效果。
引用信息
如果你想参考我们的工作,可以引用这篇 论文:
@inproceedings{wang2022uncertainty,
title={The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS},
author={Wang, Pengyu and Ren, Zhichen},
booktitle={Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages},
pages={164--168},
year={2022}
}
你可以通过 此链接 查看 中文版 介绍。
评估与结果
我们在竞赛 EvaHan 2022 提供的训练集和测试集上对不同的预训练模型进行了测试和比较。我们通过在 中文分词 (CWS)
和 词性标注 (POS Tagging)
下游任务上对模型进行微调来比较它们的性能。
我们使用 BERT+CRF
作为基线模型,比较 siku-bert
、siku-roberta
和 bert-ancient-chinese
在下游任务中的性能。为了充分利用整个训练数据集,我们采用 K 折交叉验证
,同时保持其他超参数相同。评估指标为 F1 值
。
|
《左传》 |
|
《史记》 |
|
|
CWS |
POS |
CWS |
POS |
siku-bert |
96.0670% |
92.0156% |
92.7909% |
87.1188% |
siku-roberta |
96.0689% |
92.0496% |
93.0183% |
87.5339% |
bert-ancient-chinese |
96.3273% |
92.5027% |
93.2917% |
87.8749% |
引用说明
如果我们的内容对你的研究工作有帮助,请在论文中引用。
免责声明
报告中呈现的实验结果仅显示了在特定数据集和超参数组合下的性能,不能代表每个模型的本质。实验结果可能因随机数种子和计算设备而改变。用户可以在许可范围内任意使用该模型,但我们不对使用项目内容所造成的直接或间接损失负责。
致谢
bert-ancient-chinese
基于 bert-base-chinese 继续训练。
感谢 邱锡鹏 教授和 复旦大学自然语言处理实验室。
联系我们
王鹏宇:wpyjihuai@gmail.com
📄 许可证
本项目采用 apache-2.0
许可证。