roberta-classical-chinese-base-sentence-segmentationオープンソースモデル

ホーム

Roberta Classical Chinese Base Sentence Segmentation

KoichiYasuokaによって開発

これは文言文で事前学習されたRoBERTaモデルで、特に文分割タスク用に設計されており、文言文の文境界を自動的に識別できます。

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #文言文の文分割 #古代中国語処理 #RoBERTaファインチューニング

ダウンロード数 34

リリース時間 : 3/2/2022

モデル概要

このモデルは文言文テキストの文分割タスクに使用され、文言文の文境界を自動的に識別できます。分割後の各文はタグカテゴリ'B'で始まり、'E'で終わります（単一文字の文の場合はタグカテゴリ'S'を使用）。

モデル特徴

文言文専用

文言文に特化して事前学習と最適化が行われており、文言文の文境界を正確に識別できます。

RoBERTaアーキテクチャベース

RoBERTaアーキテクチャを採用しており、強力な文脈理解能力を備えています。

タグ分類

B/E/Sタグシステムを使用して文境界を識別し、複雑な文言文構造に対応できます。

モデル能力

文言文処理

文分割

テキストタグ分類

使用事例

古典書籍のデジタル化

古典テキストの自動セグメンテーション

古典文献を自動的に文分割し、後の分析と処理を容易にします。

文言文の文境界を正確に識別

文言文教育

教材の前処理

文言文教材の文を自動分割し、教育利用を容易にします。

教材準備の効率向上

🚀 roberta-classical-chinese-base-sentence-segmentation

このモデルは、古典漢文の文章を文分割するために事前学習されたRoBERTaモデルです。roberta-classical-chinese-base-char をベースに派生しています。分割された各文は、トークンクラス "B" で始まり、トークンクラス "E" で終わります（ただし、単一文字の文はトークンクラス "S" となります）。

🚀 クイックスタート

このセクションでは、roberta-classical-chinese-base-sentence-segmentationモデルの基本的な使い方を説明します。

✨ 主な機能

古典漢文の文章を文分割することができます。
派生元のモデルは roberta-classical-chinese-base-char です。
分割された各文は、トークンクラス "B" で始まり、トークンクラス "E" で終わります（ただし、単一文字の文はトークンクラス "S" となります）。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers torch

💻 使用例

基本的な使用法

import torch
from transformers import AutoTokenizer,AutoModelForTokenClassification
tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/roberta-classical-chinese-base-sentence-segmentation")
model=AutoModelForTokenClassification.from_pretrained("KoichiYasuoka/roberta-classical-chinese-base-sentence-segmentation")
s="子曰學而時習之不亦説乎有朋自遠方來不亦樂乎人不知而不慍不亦君子乎"
p=[model.config.id2label[q] for q in torch.argmax(model(tokenizer.encode(s,return_tensors="pt"))["logits"],dim=2)[0].tolist()[1:-1]]
print("".join(c+"。" if q=="E" or q=="S" else c for c,q in zip(s,p)))

📚 ドキュメント

モデル情報

Property	Details
Model Type	RoBERTa
Training Data	Classical Chinese texts
Pipeline Tag	token-classification
Tags	classical chinese, literary chinese, ancient chinese, sentence segmentation, token-classification
Base Model	KoichiYasuoka/roberta-classical-chinese-base-char
License	apache-2.0