G

Guwenbert Base

Developed by ethanyt
文言文の事前学習に基づくRoBERTaモデルで、古籍テキスト処理タスクに適しています。
Downloads 2,122
Release Time : 3/2/2022

Model Overview

これは文言文に特化して事前学習されたRoBERTaモデルで、古籍テキストの下流タスク処理、例えば句読点付け、句読点挿入、固有表現抽出などに使用できます。

Model Features

文言文専用事前学習
文言文に特化して事前学習を行い、古籍テキスト処理能力を最適化しました。
二段階学習戦略
まず単語埋め込み層を学習し、その後全パラメータを学習する二段階戦略を採用し、学習効果を向上させます。
大規模学習データ
殆知閣古代文献データセットを使用し、15,694冊の典籍、17億文字のデータを含んでいます。

Model Capabilities

古籍テキストの句読点付け
古籍テキストの句読点挿入
古籍固有表現抽出
文言文の意味理解

Use Cases

古籍デジタル化
古籍固有表現抽出
古籍中の書名、人名、地名などの固有名詞を識別します。
「古聯杯」評価で2位に入り、F1値は84.63です。
古籍句読点復元
句読点のない古籍テキストに自動的に句読点を付けます。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase