roberta-classical-chinese-large-charオープンソースモデル - 繁簡字体処理をサポートする古文タスク

ホーム

Roberta Classical Chinese Large Char

KoichiYasuokaによって開発

文言文テキストで事前学習されたRoBERTaモデルで、繁体字/簡体字をサポートし、古文処理タスクに適しています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #文言文の穴埋め #古漢語の処理 #文字レベルの事前学習

ダウンロード数 33

リリース時間 : 3/2/2022

モデル概要

これは文言文テキストで事前学習されたRoBERTaモデルで、古文BERT大型版に由来します。文字埋め込みにより繁体字/簡体字のサポートが強化され、下流タスクの微調整に使用できます。

モデル特徴

文言文専用

文言文テキストに特化して事前学習され、古文の理解と処理能力が最適化されています。

文字レベルのサポート

繁体字/簡体字の文字埋め込みサポートが強化されています。

多タスク対応

文の切り分け、品詞タグ付けなどの様々な下流タスクの微調整に使用できます。

モデル能力

文言文の穴埋め

古文の文切り分け

古文の品詞タグ付け

古文の依存構文解析

使用事例

古文処理

古文の穴埋め

文言文の文の欠落部分を埋めます。

例の通り、「孟子梁惠王」の「見」を正確に予測できます。

古文の分析

文言文に対して品詞タグ付けと構文解析を行います。

古文中の品詞と文法関係を識別できます。

学術研究

古籍のデジタル化

古籍文献のデジタル化処理と分析を支援します。

古籍テキスト処理の効率と精度を向上させます。

🚀 roberta-classical-chinese-large-char

このモデルは古典中国語テキストで事前学習されたRoBERTaモデルで、GuwenBERT-large をベースにしています。文字埋め込みは繁体字/簡体字に強化されています。下流タスク、例えば文分割、品詞タグ付け、依存構造解析などのために微調整することができます。

🚀 クイックスタート

このモデルは古典中国語のテキストを対象に事前学習されたRoBERTaモデルです。GuwenBERT-large をベースに派生しており、文字埋め込みが繁体字や簡体字に強化されています。roberta-classical-chinese-large-char を微調整することで、文分割、品詞タグ付け、依存構造解析などの下流タスクに利用できます。

✨ 主な機能

古典中国語テキストで事前学習されたRoBERTaモデル。
文字埋め込みが繁体字/簡体字に強化されている。
下流タスクに微調整可能。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコードでモデルとトークナイザーをロードできます。

💻 使用例

基本的な使用法

# オリジナルのコードとコメントを保持
from transformers import AutoTokenizer,AutoModelForMaskedLM
tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/roberta-classical-chinese-large-char")
model=AutoModelForMaskedLM.from_pretrained("KoichiYasuoka/roberta-classical-chinese-large-char")

📚 ドキュメント

📄 ライセンス

このモデルは apache-2.0 ライセンスの下で提供されています。

モデル情報

属性	详情
モデルタイプ	RoBERTa
ベースモデル	ethanyt/guwenbert-large
学習データ	古典中国語テキスト
ライセンス	apache-2.0
パイプラインタグ	fill-mask
マスクトークン	[MASK]