morphbert-large-morpheme-segmentation-ru開源模型 - 實現俄語單詞語素類別精準分類

首頁

Morphbert Large Morpheme Segmentation Ru

由CrabInHoney開發

基於Transformer架構的大型俄語語素分割模型，可將俄語單詞的每個字符分類為25種語素類別之一

序列標註

Transformers

其他開源協議:Apache-2.0 #俄語語素分割 #字符級標記分類 #高精度形態分析

下載量 16

發布時間 : 4/7/2025

模型概述

該模型專門針對俄語詞語素分割任務進行微調，能夠解析俄語單詞的構成語素，適用於字符級別的形態分析預測。

模型特點

高精度語素分割

在評估數據集上達到約0.99的字符級準確率，能夠準確識別俄語單詞的語素邊界。

豐富的語素類別

支持25種語素類別分類，包括詞根、前綴、後綴、連接符等多種形態結構。

大型Transformer架構

採用與bert-base相當的複雜架構，比小型版本具有更高的解析準確度。

模型能力

俄語單詞語素分割

字符級標記分類

形態分析預測

使用案例

語言學分析

俄語單詞形態分解

將俄語單詞分解為詞根、前綴、後綴等語素成分

例如將'масляный'分解為'масл:ROOT / ян:SUFF / ый:END'

複合詞分析

解析包含連字符的複合詞結構

例如將'сине-белый'分解為'син:ROOT / е:LINK / -:HYPH / бел:ROOT1 / ый:END'

自然語言處理

俄語NLP預處理

為俄語NLP任務提供單詞形態結構信息

可用於詞形還原、詞幹提取等下游任務

🚀 MorphBERT-Large：俄語語素分割

本倉庫包含 CrabInHoney/morphbert-large-morpheme-segmentation-ru 模型，這是一個基於大型 Transformer 的系統，針對俄語單詞的語素分割進行了微調。該模型將給定單詞的每個字符分類為 25 種語素類別之一：['END', 'END1', 'HYPH', 'HYPH1', 'LINK', 'LINK1', 'LINK2', 'LINK3', 'POSTFIX', 'PREF', 'PREF1', 'PREF2', 'ROOT', 'ROOT1', 'ROOT2', 'ROOT3', 'ROOT4', 'ROOT5', 'SUFF', 'SUFF1', 'SUFF2', 'SUFF3', 'SUFF4', 'SUFF5', 'SUFF6']

✨ 主要特性

任務：語素分割（字符級別的標記分類）
語言：俄語（ru）
架構：Transformer（類似 BERT base）
標籤：['END', 'END1', 'HYPH', 'HYPH1', 'LINK', 'LINK1', 'LINK2', 'LINK3', 'POSTFIX', 'PREF', 'PREF1', 'PREF2', 'ROOT', 'ROOT1', 'ROOT2', 'ROOT3', 'ROOT4', 'ROOT5', 'SUFF', 'SUFF1', 'SUFF2', 'SUFF3', 'SUFF4', 'SUFF5', 'SUFF6']
模型大小與規格：
- 參數數量：約 8550 萬個
- 張量類型：F32
- 磁盤佔用：約 342 MB

📚 詳細文檔

模型描述

morphbert-large-morpheme-segmentation-ru 使用了強大的 Transformer 架構，旨在更準確地預測字符級別的形態分析。由於其規模較大，與小版本（CrabInHoney/morphbert-tiny-morpheme-segmentation-ru）相比，該模型在確定俄語單詞的組成語素方面表現出更高的準確性。

該模型是從頭開始訓練得到的，其架構複雜度與 bert-base 相當。

性能

該模型在評估數據集上實現了約 0.99 的字符級準確率。

侷限性

對於未登錄詞、新詞或訓練數據中未充分體現的高度複雜形態結構，模型性能可能會有所不同。
該模型嚴格在字符級別上運行，不考慮更廣泛的詞彙或句法上下文。
語素邊界的模糊情況可能會根據訓練期間學到的模式進行解析，在邊緣情況下可能並不總是符合語言習慣。

💻 使用示例

基礎用法

該模型可以輕鬆地與 Hugging Face 的 transformers 庫一起使用。它逐字符處理單詞。

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

model_name = "CrabInHoney/morphbert-large-morpheme-segmentation-ru"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)
model.eval()

def analyze(word):
    tokens = list(word)
    encoded = tokenizer(tokens, is_split_into_words=True, return_tensors="pt", truncation=True, max_length=34)
    with torch.no_grad():
        logits = model(**encoded).logits
        predictions = logits.argmax(dim=-1)[0]
    
    word_ids = encoded.word_ids()
    output = []
    current_label = None
    current_chunk = []

    for i, word_idx in enumerate(word_ids):
        if word_idx is not None and word_idx < len(tokens):
            label_id = predictions[i].item()
            label = model.config.id2label[label_id]  
            token = tokens[word_idx]
            
            if label == current_label:
                current_chunk.append(token)
            else:
                if current_chunk:
                    chunk_str = "".join(current_chunk)
                    output.append(f"{chunk_str}:{current_label}")
                current_chunk = [token]
                current_label = label
    if current_chunk:
        chunk_str = "".join(current_chunk)
        output.append(f"{chunk_str}:{current_label}")

    return " / ".join(output)

# 示例
for word in ["масляный", "предчувствий", "тарковский", "кот", "подгон", "сине-белый", "шторы", "абажур", "дедлайн", "веб-сайт", "адаптированная", "формообразующий"]:
    print(f"{word} → {analyze(word)}")

示例預測

масляный → масл:ROOT / ян:SUFF / ый:END
предчувствий → пред:PREF / чу:ROOT / в:SUFF / ств:SUFF1 / ий:END
тарковский → тарк:ROOT / ов:SUFF / ск:SUFF1 / ий:END
кот → кот:ROOT
подгон → под:PREF / гон:ROOT
сине-белый → син:ROOT / е:LINK / -:HYPH / бел:ROOT1 / ый:END
шторы → штор:ROOT / ы:END
абажур → абажур:ROOT
дедлайн → дедлайн:ROOT
веб-сайт → веб:ROOT / -:HYPH / сайт:ROOT1
адаптированная → адапт:ROOT / ир:SUFF / ова:SUFF1 / нн:SUFF2 / ая:END
формообразующий → форм:ROOT / о:LINK / образу:ROOT1 / ющ:SUFF / ий:END