🚀 bert-ancient-chinese
このプロジェクトは、現在世界を席巻している人工知能とデジタルヒューマニティの波に対応し、古漢語の自動分析と研究を強化するための事前学習モデル bert-ancient-chinese
を提供します。このモデルは、古漢語の自動処理分野における精度向上に貢献します。
🚀 クイックスタート
bert-ancient-chinese
は、古漢語の自動処理に特化した事前学習モデルです。このモデルを使用することで、古漢語の分かち書きや品詞タグ付けなどのタスクを効果的に行うことができます。
✨ 主な機能
- 拡張された語彙表:古漢語には多くの繁体字や生僻字が含まれるため、
bert-ancient-chinese
は大規模なコーパスを学習して語彙表を拡張しました。最終的な語彙表のサイズは 38208 で、bert-base-chinese
の 21128 や siku-bert
の 29791 よりも大きく、生僻語も多く含まれています。
- 大規模な訓練データセット:
siku-bert
が「四庫全書」のみを訓練データセットとして使用しているのに対し、bert-ancient-chinese
は約 6 倍の規模のデータセットを使用しています。このデータセットは、経部、史部、子部、集部などを含み、内容が豊富で範囲が広いです。
- ドメイン適応型事前学習:
Domain-Adaptive Pretraining
の考え方に基づき、bert-base-chinese
をベースに古漢語コーパスと組み合わせて訓練され、古漢語の自動処理分野に特化した事前学習モデルを得ました。
📦 インストール
Huggingface Transformers
Huggingface Transformers の from_pretrained
メソッドを使用すると、オンラインで直接 bert-ancient-chinese
モデルを取得できます。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Jihuai/bert-ancient-chinese")
model = AutoModel.from_pretrained("Jihuai/bert-ancient-chinese")
モデルのダウンロード
提供されるモデルは PyTorch
バージョンです。
Huggingface からのダウンロード
Huggingface の公式ウェブサイトから直接ダウンロードでき、公式サイトのモデルは最新バージョンに同時に更新されています。
クラウドディスクからのダウンロード
ダウンロードアドレス:
モデル |
リンク |
bert-ancient-chinese |
リンク 抽出コード: qs7x |
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Jihuai/bert-ancient-chinese")
model = AutoModel.from_pretrained("Jihuai/bert-ancient-chinese")
📚 ドキュメント
評価と結果
このモデルは、コンペティション EvaHan 2022 で提供された訓練セットとテストセットで、他の事前学習モデルと比較されました。下流タスクである Chinese Word Segmentation(CWS)
と part-of-speech tagging(POS Tagging)
での性能を比較し、BERT+CRF
をベースラインモデルとして使用しました。評価指標は F1 値
です。
|
《左伝》 |
|
《史記》 |
|
|
CWS |
POS |
CWS |
POS |
siku-bert |
96.0670% |
92.0156% |
92.7909% |
87.1188% |
siku-roberta |
96.0689% |
92.0496% |
93.0183% |
87.5339% |
bert-ancient-chinese |
96.3273% |
92.5027% |
93.2917% |
87.8749% |
引用
もしこのプロジェクトの内容があなたの研究に役立った場合は、論文で引用してください。
@inproceedings{wang2022uncertainty,
title={The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS},
author={Wang, Pengyu and Ren, Zhichen},
booktitle={Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages},
pages={164--168},
year={2022}
}
免責事項
報告書に示された実験結果は、特定のデータセットとハイパーパラメータの組み合わせでの性能を示すものであり、各モデルの本質を代表するものではありません。実験結果は乱数シードや計算機器によって変化する可能性があります。ユーザーはライセンスの範囲内で自由にモデルを使用できますが、このプロジェクトの内容を使用することによって生じる直接的または間接的な損失について、当方は責任を負いません。
謝辞
bert-ancient-chinese
は bert-base-chinese をベースに継続的に訓練されています。Prof. Xipeng Qiu と Natural Language Processing Laboratory of Fudan University に感謝します。
お問い合わせ
Pengyu Wang:wpyjihuai@gmail.com