G

Guwenbert Base

ethanytによって開発
文言文の事前学習に基づくRoBERTaモデルで、古籍テキスト処理タスクに適しています。
ダウンロード数 2,122
リリース時間 : 3/2/2022

モデル概要

これは文言文に特化して事前学習されたRoBERTaモデルで、古籍テキストの下流タスク処理、例えば句読点付け、句読点挿入、固有表現抽出などに使用できます。

モデル特徴

文言文専用事前学習
文言文に特化して事前学習を行い、古籍テキスト処理能力を最適化しました。
二段階学習戦略
まず単語埋め込み層を学習し、その後全パラメータを学習する二段階戦略を採用し、学習効果を向上させます。
大規模学習データ
殆知閣古代文献データセットを使用し、15,694冊の典籍、17億文字のデータを含んでいます。

モデル能力

古籍テキストの句読点付け
古籍テキストの句読点挿入
古籍固有表現抽出
文言文の意味理解

使用事例

古籍デジタル化
古籍固有表現抽出
古籍中の書名、人名、地名などの固有名詞を識別します。
「古聯杯」評価で2位に入り、F1値は84.63です。
古籍句読点復元
句読点のない古籍テキストに自動的に句読点を付けます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase