ner-rubert-tiny-news開源模型 - 免費識別俄語新聞文本中的各類實體

首頁

Ner Rubert Tiny News

由r1char9開發

基於RuBERT-tiny2微調的俄語新聞命名實體識別模型，專注於從俄語新聞文本中識別各類實體。

序列標註

PyTorch

開源協議:MIT #俄語新聞實體識別 #高效NER模型 #多類別實體標註

下載量 2,026

發布時間 : 4/14/2025

模型概述

該模型用於俄語新聞文本的命名實體識別任務，能夠精準識別人名、組織名、地名等地緣政治相關實體。

模型特點

多類別實體識別

支持識別人名(PER)、組織名(ORG)、地名(LOC)、地緣政治實體(GEOPOLIT)和媒體相關實體(MEDIA)等多種實體類型。

高性能指標

在精確率、召回率和F1值等關鍵指標上表現優異，F1值達到0.849。

俄語新聞優化

專門針對俄語新聞文本進行優化訓練，在Collection3數據集上表現良好。

模型能力

俄語文本處理

命名實體識別

實體分類

使用案例

新聞分析

新聞人物識別

從俄語新聞中自動識別提及的人物姓名

準確識別出文本中的人名實體

組織機構追蹤

識別新聞中提到的各類組織機構名稱

有效識別企業、政府機構等組織實體

地理信息提取

地理位置識別

從新聞文本中提取地名信息

準確標註城市、國家等地理實體

🚀 命名實體識別（NER）-RuBERT-tiny-RuNews

本項目專注於俄語新聞的命名實體識別（NER）任務，旨在從俄語新聞文本中精準識別並分類出各類實體。

模型基於 RuBERT-tiny2 進行微調，在 Collection3 數據集上訓練，該數據集涵蓋了豐富的俄語新聞文本。模型能夠有效識別出人名、組織名、地名等實體，在準確率、F1值、精確率和召回率等指標上表現出色。

✨ 主要特性

實體類型

實體類型	詳情
`PER`	人名
`ORG`	組織名
`LOC`	地名
`GEOPOLIT`	地緣政治相關實體（如國家、地區等）
`MEDIA`	媒體相關實體

評估指標

指標	數值
精確率（Precision）	0.793
召回率（Recall）	0.914
F1值（F1-score）	0.849
準確率（Accuracy）	0.972

📦 安裝指南

暫未提供安裝步驟相關內容。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

label2id = {
    'O': 0,
    'B-GEOPOLIT': 1, 'I-GEOPOLIT': 2,
    'B-MEDIA': 3,    'I-MEDIA': 4,
    'B-LOC': 5,      'I-LOC': 6,
    'B-ORG': 7,      'I-ORG': 8,
    'B-PER': 9,      'I-PER': 10
}
id2label = {v: k for k, v in label2id.items()}

model_id = "r1char9/ner-rubert-tiny-RuNews"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(
    model_id,
    num_labels=len(label2id),
    id2label=id2label,
    label2id=label2id
)

ner_pipeline = pipeline(
    "ner",
    model=model,
    tokenizer=tokenizer,
    aggregation_strategy="simple"
)

text = (
    "–ì–µ–Ω–µ—Ä–∞–ª—å–Ω—ã–π –¥–∏—Ä–µ–∫—Ç–æ—Ä –°–±–µ—Ä–±–∞–Ω–∫–∞ –ì–µ—Ä–º–∞–Ω –ì—Ä–µ—Ñ –Ω–∞ –∫–æ–Ω—Ñ–µ—Ä–µ–Ω—Ü–∏–∏ –≤ –ú–æ—Å–∫–≤–µ –∑–∞—è–≤–∏–ª, "
    "—á—Ç–æ —Å–æ—Ç—Ä—É–¥–Ω–∏—á–µ—Å—Ç–≤–æ —Å –Ø–Ω–¥–µ–∫—Å–æ–º –≤ –æ–±–ª–∞—Å—Ç–∏ –∏—Å–∫—É—Å—Å—Ç–≤–µ–Ω–Ω–æ–≥–æ –∏–Ω—Ç–µ–ª–ª–µ–∫—Ç–∞ –≤—ã—Ö–æ–¥–∏—Ç –Ω–∞ –Ω–æ–≤—ã–π —É—Ä–æ–≤–µ–Ω—å. "
    "–û–Ω —Ç–∞–∫–∂–µ –æ—Ç–º–µ—Ç–∏–ª, —á—Ç–æ –ø—Ä–∞–≤–∏—Ç–µ–ª—å—Å—Ç–≤–æ –†–æ—Å—Å–∏–π—Å–∫–æ–π –§–µ–¥–µ—Ä–∞—Ü–∏–∏ –ø–æ–¥–¥–µ—Ä–∂–∏–≤–∞–µ—Ç —Ä–∞–∑–≤–∏—Ç–∏–µ —Ü–∏—Ñ—Ä–æ–≤–æ–π —ç–∫–æ–Ω–æ–º–∏–∫–∏, "
    "–æ—Å–æ–±–µ–Ω–Ω–æ –≤ —Ä–∞–º–∫–∞—Ö –ï–≤—Ä–∞–∑–∏–π—Å–∫–æ–≥–æ —ç–∫–æ–Ω–æ–º–∏—á–µ—Å–∫–æ–≥–æ —Å–æ—é–∑–∞."
)

results = ner_pipeline(text)

for entity in results:
    print(entity)

# {'entity_group': 'ORG', 'score': 0.951569, 'word': '–°–±–µ—Ä–±–∞–Ω–∫–∞', 'start': 21, 'end': 30}
# {'entity_group': 'PER', 'score': 0.9922959, 'word': '–ì–µ—Ä–º–∞–Ω –ì—Ä–µ—Ñ', 'start': 31, 'end': 42}
# {'entity_group': 'LOC', 'score': 0.60198957, 'word': '–ú–æ—Å–∫–≤–µ', 'start': 60, 'end': 66}
# {'entity_group': 'ORG', 'score': 0.6973838, 'word': '–Ø–Ω–¥–µ–∫—Å–æ–º', 'start': 96, 'end': 104}
# {'entity_group': 'GEOPOLIT', 'score': 0.9631994, 'word': '–†–æ—Å—Å–∏–π—Å–∫–æ–π –§–µ–¥–µ—Ä–∞—Ü–∏–∏', 'start': 203, 'end': 223}
# {'entity_group': 'ORG', 'score': 0.85091865, 'word': '–ï–≤—Ä–∞–∑–∏–π—Å–∫–æ–≥–æ —ç–∫–æ–Ω–æ–º–∏—á–µ—Å–∫–æ–≥–æ —Å–æ—é–∑–∞.', 'start': 284, 'end': 318}