古文本BERTベースオープンソースモデル - 免费で古籍テキスト処理などの文言文関連タスクを支援

Home

Guwenbert Base

Developed by ethanyt

文言文の事前学習に基づくRoBERTaモデルで、古籍テキスト処理タスクに適しています。

大規模言語モデル ChineseOpen Source License:Apache-2.0 #文言文事前学習 #古籍固有表現抽出 #簡体・繁字体変換対応

Downloads 2,122

Release Time : 3/2/2022

Model Overview

これは文言文に特化して事前学習されたRoBERTaモデルで、古籍テキストの下流タスク処理、例えば句読点付け、句読点挿入、固有表現抽出などに使用できます。

Model Features

文言文専用事前学習

文言文に特化して事前学習を行い、古籍テキスト処理能力を最適化しました。

二段階学習戦略

まず単語埋め込み層を学習し、その後全パラメータを学習する二段階戦略を採用し、学習効果を向上させます。

大規模学習データ

殆知閣古代文献データセットを使用し、15,694冊の典籍、17億文字のデータを含んでいます。

Model Capabilities

古籍テキストの句読点付け

古籍テキストの句読点挿入

古籍固有表現抽出

文言文の意味理解

Use Cases

古籍デジタル化

古籍固有表現抽出

古籍中の書名、人名、地名などの固有名詞を識別します。

「古聯杯」評価で2位に入り、F1値は84.63です。

古籍句読点復元

句読点のない古籍テキストに自動的に句読点を付けます。

🚀 古文BERT

このモデルは古典中国語で事前学習されたRoBERTaモデルです。古文BERTを下流タスク、例えば文の区切り、句読点付け、固有表現認識などにファインチューニングすることができます。

🚀 クイックスタート

モデルの概要

GuwenBERT

このモデルは古典中国語で事前学習されたRoBERTaモデルです。GuwenBERTを下流タスク、例えば文の区切り、句読点付け、固有表現認識などにファインチューニングすることができます。

RoBERTaに関する詳細情報は、RoBERTaの公式リポジトリを参照してください。

使い方

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("ethanyt/guwenbert-base")

model = AutoModel.from_pretrained("ethanyt/guwenbert-base")

✨ 主な機能

古典中国語の下流タスクにファインチューニング可能。
文の区切り、句読点付け、固有表現認識などのタスクに対応。

📦 インストール

コードの実行に必要なライブラリはtransformersです。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("ethanyt/guwenbert-base")
model = AutoModel.from_pretrained("ethanyt/guwenbert-base")

# ここに具体的な使用例を追加できます

📚 ドキュメント

学習データ

学習データは殆知阁古代文献データセット（daizhige dataset）で、15,694冊の古典中国語の書籍が含まれています。これらの書籍は仏教、儒教、医学、歴史、子、易、易蔵、史蔵、道教、集蔵などの分野を網羅しています。そのうち76％には句読点が付けられています。総文字数は17億（1,743,337,673）です。すべての繁体字は簡体字に変換されています。語彙はこのデータセットから構築され、サイズは23,292です。

学習手順

モデルはhfl/chinese-roberta-wwm-extで初期化され、2段階の戦略で事前学習されます。第一段階では、学習中に単語埋め込みのみが更新されるMLMを学習し、収束するまで行います。第二段階では、学習中にすべてのパラメータが更新されます。

モデルは4つのV100 GPUで120Kステップ（ステップ1は20K、ステップ2は100K）学習されます。バッチサイズは2,048、シーケンス長は512です。使用されるオプティマイザはAdamで、学習率は2e-4、adam-betasは(0.9,0.98)、adam-epsは1e-6、重み減衰は0.01です。学習率は5Kステップでウォームアップされ、その後は線形減衰します。