morphbert-large-morpheme-segmentation-ruオープンソースモデル - ロシア語の単語の形態素のカテゴリを高精度に分類する

ホーム

Morphbert Large Morpheme Segmentation Ru

CrabInHoneyによって開発

Transformerアーキテクチャに基づく大規模ロシア語形態素分割モデルで、ロシア語単語の各文字を25種類の形態素カテゴリのいずれかに分類可能

シーケンスラベリング

Transformers

その他オープンソースライセンス:Apache-2.0 #ロシア語形態素分割 #文字レベルタグ分類 #高精度形態解析

ダウンロード数 16

リリース時間 : 4/7/2025

モデル概要

このモデルはロシア語単語の形態素分割タスクに特化してファインチューニングされており、ロシア語単語の構成形態素を解析でき、文字レベルの形態解析予測に適用可能です。

モデル特徴

高精度形態素分割

評価データセットで約0.99の文字レベル精度を達成し、ロシア語単語の形態素境界を正確に識別可能。

豊富な形態素カテゴリ

語根、接頭辞、接尾辞、連結子など25種類の形態構造分類をサポート。

大規模Transformerアーキテクチャ

bert-base相当の複雑なアーキテクチャを採用し、小型版より高い解析精度を実現。

モデル能力

ロシア語単語形態素分割

文字レベルタグ分類

形態解析予測

使用事例

言語学分析

ロシア語単語形態分解

ロシア語単語を語根、接頭辞、接尾辞などの形態素成分に分解

例：'масляный'を'масл:ROOT / ян:SUFF / ый:END'に分解

複合語分析

ハイフンを含む複合語構造を解析

例：'сине-белый'を'син:ROOT / е:LINK / -:HYPH / бел:ROOT1 / ый:END'に分解

自然言語処理

ロシア語NLP前処理

ロシア語NLPタスクに単語形態構造情報を提供

語形還元、語幹抽出などの下流タスクに利用可能

🚀 MorphBERT-Large: ロシア語の形態素分割

このリポジトリには、CrabInHoney/morphbert-large-morpheme-segmentation-ruモデルが含まれています。これは、ロシア語の単語の形態素分割のためにファインチューニングされた大規模なトランスフォーマーベースのシステムです。このモデルは、与えられた単語の各文字を25の形態素カテゴリのいずれかに分類します: ['END', 'END1', 'HYPH', 'HYPH1', 'LINK', 'LINK1', 'LINK2', 'LINK3', 'POSTFIX', 'PREF', 'PREF1', 'PREF2', 'ROOT', 'ROOT1', 'ROOT2', 'ROOT3', 'ROOT4', 'ROOT5', 'SUFF', 'SUFF1', 'SUFF2', 'SUFF3', 'SUFF4', 'SUFF5', 'SUFF6']

✨ 主な機能

モデルの説明

morphbert-large-morpheme-segmentation-ruは強力なトランスフォーマーアーキテクチャを使用しており、文字レベルでの形態解析をより正確に予測することを目的としています。モデルが大規模であるため、小規模版（CrabInHoney/morphbert-tiny-morpheme-segmentation-ru）と比較して、ロシア語の単語の構成形態素をより正確に判断することができます。

このモデルはゼロから学習されたもので、そのアーキテクチャの複雑さはbert-baseに匹敵します。

主要な特徴:

タスク: 形態素分割（文字レベルのトークン分類）
言語: ロシア語 (ru)
アーキテクチャ: トランスフォーマー (BERT base -like)
ラベル: ['END', 'END1', 'HYPH', 'HYPH1', 'LINK', 'LINK1', 'LINK2', 'LINK3', 'POSTFIX', 'PREF', 'PREF1', 'PREF2', 'ROOT', 'ROOT1', 'ROOT2', 'ROOT3', 'ROOT4', 'ROOT5', 'SUFF', 'SUFF1', 'SUFF2', 'SUFF3', 'SUFF4', 'SUFF5', 'SUFF6']

モデルのサイズと仕様:

プロパティ	詳細
パラメータ	~8550万
テンソルタイプ	F32
ディスク占有容量	~342 MB

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

model_name = "CrabInHoney/morphbert-large-morpheme-segmentation-ru"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
model.eval()

def analyze(word):
    tokens = list(word)
    encoded = tokenizer(tokens, is_split_into_words=True, return_tensors="pt", truncation=True, max_length=34)
    with torch.no_grad():
        logits = model(**encoded).logits
        predictions = logits.argmax(dim=-1)[0]
    
    word_ids = encoded.word_ids()
    output = []
    current_label = None
    current_chunk = []

    for i, word_idx in enumerate(word_ids):
        if word_idx is not None and word_idx < len(tokens):
            label_id = predictions[i].item()
            label = model.config.id2label[label_id]  
            token = tokens[word_idx]
            
            if label == current_label:
                current_chunk.append(token)
            else:
                if current_chunk:
                    chunk_str = "".join(current_chunk)
                    output.append(f"{chunk_str}:{current_label}")
                current_chunk = [token]
                current_label = label
    if current_chunk:
        chunk_str = "".join(current_chunk)
        output.append(f"{chunk_str}:{current_label}")

    return " / ".join(output)

# 例
for word in ["масляный", "предчувствий", "тарковский", "кот", "подгон", "сине-белый", "шторы", "абажур", "дедлайн", "веб-сайт", "адаптированная", "формообразующий"]:
    print(f"{word} → {analyze(word)}")

予測結果の例

масляный → масл:ROOT / ян:SUFF / ый:END
предчувствий → пред:PREF / чу:ROOT / в:SUFF / ств:SUFF1 / ий:END
тарковский → тарк:ROOT / ов:SUFF / ск:SUFF1 / ий:END
кот → кот:ROOT
подгон → под:PREF / гон:ROOT
сине-белый → син:ROOT / е:LINK / -:HYPH / бел:ROOT1 / ый:END
шторы → штор:ROOT / ы:END
абажур → абажур:ROOT
дедлайн → дедлайн:ROOT
веб-сайт → веб:ROOT / -:HYPH / сайт:ROOT1
адаптированная → адапт:ROOT / ир:SUFF / ова:SUFF1 / нн:SUFF2 / ая:END
формообразующий → форм:ROOT / о:LINK / образу:ROOT1 / ющ:SUFF / ий:END