🚀 bert-ancient-chinese
bert-ancient-chinese
是一個用於古漢語自動處理領域的預訓練模型。在人工智能和數字人文浪潮下,現代中文自動分析成果顯著,但古漢語自動分析研究相對薄弱。該模型通過進一步預訓練優化,在古漢語處理任務中表現出色,能滿足相關領域的實際需求。
🚀 快速開始
Huggingface Transformers
基於 Huggingface Transformers 的 from_pretrained
方法可以直接在線獲取 bert-ancient-chinese
模型。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Jihuai/bert-ancient-chinese")
model = AutoModel.from_pretrained("Jihuai/bert-ancient-chinese")
✨ 主要特性
- 更大的詞彙表:古漢語文本多為繁體字且包含大量生僻字,之前的預訓練模型的
vocab table
(詞彙表)可能沒有涵蓋這些生僻字。bert-ancient-chinese
通過在大規模語料庫中學習,進一步擴展了預訓練模型的 vocab
(詞典)。最終的 vocab table
大小為 38208,相比 bert-base-chinese
的詞彙大小 21128 和 siku-bert
的詞彙大小 29791,bert-ancient-chinese
擁有 更大的詞彙量,並且包含更多生僻詞彙,這更有利於提高模型在下游任務中的性能。vocab table
即詞彙表,包含在預訓練模型的 vocab.txt
中。
- 更大的訓練集:
bert-ancient-chinese
使用了更大的訓練集。與 siku-bert
僅使用 “四庫全書” 作為訓練數據集不同,我們使用了更大規模的數據集(約為 “四庫全書” 的六倍),涵蓋了經部、道部、佛部、儒部、詩部、史部、醫部、藝部、易部和子部,內容比 “四庫全書” 更豐富、範圍更廣。
- 領域自適應預訓練:基於
Domain-Adaptive Pretraining
的思想,bert-ancient-chinese
在 bert-base-chinese
的基礎上進行訓練,並結合古漢語語料庫,得到了適用於古漢語自動處理領域的預訓練模型。
📦 安裝指南
從 Huggingface 下載
通過 Huggingface 的官方網站直接下載,官方網站上的模型已同步更新到最新版本:
從網盤下載
下載地址:
模型 |
鏈接 |
bert-ancient-chinese |
Link 提取碼:qs7x |
📚 詳細文檔
模型背景
隨著當前人工智能和數字人文浪潮席捲全球,現代中文的自動分析取得了巨大成果。然而,古漢語的自動分析和研究相對薄弱,難以滿足國學、歷史、語文學、中國史以及國學和傳統文化教育的實際需求。古漢語在文字、詞彙和詞性方面存在諸多爭議,資源建設也面臨諸多困難。數字人文研究需要大規模語料庫和高性能的古代自然語言處理工具。鑑於預訓練語言模型在英文和現代中文文本的文本挖掘準確性方面有了極大提高,因此迫切需要用於古文本自動處理的預訓練模型。
模型訓練
2022 年,我們參加了 EvaHan 2022,這是古漢語領域的首次 NLP 工具評估競賽。bert-ancient-chinese
經過訓練,以進一步優化開放環境下的模型效果。
引用信息
如果你想參考我們的工作,可以引用這篇 論文:
@inproceedings{wang2022uncertainty,
title={The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS},
author={Wang, Pengyu and Ren, Zhichen},
booktitle={Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages},
pages={164--168},
year={2022}
}
你可以通過 此鏈接 查看 中文版 介紹。
評估與結果
我們在競賽 EvaHan 2022 提供的訓練集和測試集上對不同的預訓練模型進行了測試和比較。我們通過在 中文分詞 (CWS)
和 詞性標註 (POS Tagging)
下游任務上對模型進行微調來比較它們的性能。
我們使用 BERT+CRF
作為基線模型,比較 siku-bert
、siku-roberta
和 bert-ancient-chinese
在下游任務中的性能。為了充分利用整個訓練數據集,我們採用 K 折交叉驗證
,同時保持其他超參數相同。評估指標為 F1 值
。
|
《左傳》 |
|
《史記》 |
|
|
CWS |
POS |
CWS |
POS |
siku-bert |
96.0670% |
92.0156% |
92.7909% |
87.1188% |
siku-roberta |
96.0689% |
92.0496% |
93.0183% |
87.5339% |
bert-ancient-chinese |
96.3273% |
92.5027% |
93.2917% |
87.8749% |
引用說明
如果我們的內容對你的研究工作有幫助,請在論文中引用。
免責聲明
報告中呈現的實驗結果僅顯示了在特定數據集和超參數組合下的性能,不能代表每個模型的本質。實驗結果可能因隨機數種子和計算設備而改變。用戶可以在許可範圍內任意使用該模型,但我們不對使用項目內容所造成的直接或間接損失負責。
致謝
bert-ancient-chinese
基於 bert-base-chinese 繼續訓練。
感謝 邱錫鵬 教授和 復旦大學自然語言處理實驗室。
聯繫我們
王鵬宇:wpyjihuai@gmail.com
📄 許可證
本項目採用 apache-2.0
許可證。