roberta-classical-chinese-large-sentence-segmentationオープンソースモデル

ホーム

Roberta Classical Chinese Large Sentence Segmentation

KoichiYasuokaによって開発

古典漢語テキストで事前学習されたRoBERTaモデルで、文言文の文分割タスクに特化しています。

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #文言文の文分割 #古典漢語の処理 #RoBERTaの事前学習

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

このモデルは、連続した古漢語テキストを完全な文に分割するために使用されます。各文はタグカテゴリーの「B」で始まり、「E」で終わります（単一文字の文は「S」とタグ付けされます）。

モデル特徴

古典漢語専用

文言文テキストに特化して最適化されており、古漢語特有の文法構造や表現方法を効果的に処理できます。

正確な文分割

B/E/Sタグシステムを採用しており、文言文中の文の境界を正確に識別できます。

RoBERTaアーキテクチャに基づく

強力なRoBERTa事前学習モデルを利用し、古典漢語テキストで微調整されています。

モデル能力

文言文の処理

文境界の識別

テキスト分割

使用事例

古籍のデジタル化

古籍テキストの自動文分割

文分割されていない古籍文献を自動的に完全な文に分割する

古籍のデジタル化の効率と精度を向上させる

学術研究

古漢語コーパスの構築

言語学研究者に事前処理された文分割済みのテキストを提供する

後続の形態素解析や文法研究を容易にする

🚀 roberta-classical-chinese-large-sentence-segmentation

このモデルは、古典漢語の文章を文分割するために事前学習されたRoBERTaモデルです。

🚀 クイックスタート

このモデルは、古典漢語の文章を文分割するために事前学習されたRoBERTaモデルで、roberta-classical-chinese-large-char から派生しています。分割された各文は、トークンクラス "B" で始まり、トークンクラス "E" で終わります（トークンクラス "S" の単漢字文を除く）。

✨ 主な機能

言語: 古典漢語
タグ: 古典漢語、文言、古代漢語、文分割、トークン分類
ベースモデル: KoichiYasuoka/roberta-classical-chinese-large-char
ライセンス: apache-2.0
パイプラインタグ: トークン分類

Property	Details
Language	古典漢語
Tags	古典漢語、文言、古代漢語、文分割、トークン分類
Base Model	KoichiYasuoka/roberta-classical-chinese-large-char
License	apache-2.0
Pipeline Tag	トークン分類

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers torch

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer,AutoModelForTokenClassification
tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/roberta-classical-chinese-large-sentence-segmentation")
model=AutoModelForTokenClassification.from_pretrained("KoichiYasuoka/roberta-classical-chinese-large-sentence-segmentation")
s="子曰學而時習之不亦説乎有朋自遠方來不亦樂乎人不知而不慍不亦君子乎"
p=[model.config.id2label[q] for q in torch.argmax(model(tokenizer.encode(s,return_tensors="pt"))["logits"],dim=2)[0].tolist()[1:-1]]
print("".join(c+"。" if q=="E" or q=="S" else c for c,q in zip(s,p)))