シクロベルタオープンソース古汉语モデル - 無料で古文の自動処理タスクをサポート！

ホーム

Sikuroberta

SIKU-BERTによって開発

『四庫全書』全文コーパスを基に訓練された古漢語事前学習言語モデルで、古文自動処理タスクに特化して設計されています。

大規模言語モデル

Transformers

中国語オープンソースライセンス:Apache-2.0 #古文処理 #四庫全書コーパス #BERTアーキテクチャ

ダウンロード数 326

リリース時間 : 3/2/2022

モデル概要

四庫BERTと四庫RoBERTaは、BERTアーキテクチャに基づく事前学習言語モデルで、古漢語のスマート処理タスクに特化しており、高品質の『四庫全書』全文コーパスを使って訓練されています。

モデル特徴

専門的な古漢語処理

古漢語の特徴に合わせて最適化された事前学習モデル

高品質コーパスによる訓練

検証済みの『四庫全書』全文を訓練データとして使用

BERTアーキテクチャの最適化

BERT深度言語モデルアーキテクチャを基に最適化されています。

モデル能力

古文理解

古文情報抽出

古文テキストマイニング

使用事例

デジタルヒューマニティ研究

古籍テキスト分析

古代文献の意味解析と情報抽出

古文自動処理

各種の古漢語自然言語処理タスクをサポート

🚀 SikuBERT

数字人文研究には大規模コーパスと高性能の古語自然言語処理ツールのサポートが必要です。事前学習言語モデルは、英語や現代中国語のテキストマイニングの精度を大幅に向上させました。現在、古文献の自動処理に特化した事前学習モデルが切望されています。我々は検証済みの高品質な「四庫全書」全文コーパスを訓練セットとして、BERT深層言語モデルアーキテクチャに基づき、古語の知的処理タスク用のSikuBERTとSikuRoBERTa事前学習言語モデルを構築しました。

🚀 クイックスタート

✨ 主な機能

数字人文研究における古語自然言語処理タスクに特化した事前学習言語モデルです。「四庫全書」全文コーパスを用いて訓練され、古語の知的処理に高い性能を発揮します。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコードでモデルを読み込むことができます。

💻 使用例

基本的な使用法

# 使用示例代码保持不变
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("SIKU-BERT/sikuroberta")
model = AutoModel.from_pretrained("SIKU-BERT/sikuroberta")