ner-rubert-tiny-news开源模型 - 免费识别俄语新闻文本中的各类实体

首页

Ner Rubert Tiny News

由 r1char9 开发

基于RuBERT-tiny2微调的俄语新闻命名实体识别模型，专注于从俄语新闻文本中识别各类实体。

序列标注

PyTorch

开源协议:MIT #俄语新闻实体识别 #高效NER模型 #多类别实体标注

下载量 2,026

发布时间 : 4/14/2025

模型简介

该模型用于俄语新闻文本的命名实体识别任务，能够精准识别人名、组织名、地名等地缘政治相关实体。

模型特点

多类别实体识别

支持识别人名(PER)、组织名(ORG)、地名(LOC)、地缘政治实体(GEOPOLIT)和媒体相关实体(MEDIA)等多种实体类型。

高性能指标

在精确率、召回率和F1值等关键指标上表现优异，F1值达到0.849。

俄语新闻优化

专门针对俄语新闻文本进行优化训练，在Collection3数据集上表现良好。

模型能力

俄语文本处理

命名实体识别

实体分类

使用案例

新闻分析

新闻人物识别

从俄语新闻中自动识别提及的人物姓名

准确识别出文本中的人名实体

组织机构追踪

识别新闻中提到的各类组织机构名称

有效识别企业、政府机构等组织实体

地理信息提取

地理位置识别

从新闻文本中提取地名信息

准确标注城市、国家等地理实体

🚀 命名实体识别（NER）-RuBERT-tiny-RuNews

本项目专注于俄语新闻的命名实体识别（NER）任务，旨在从俄语新闻文本中精准识别并分类出各类实体。

模型基于 RuBERT-tiny2 进行微调，在 Collection3 数据集上训练，该数据集涵盖了丰富的俄语新闻文本。模型能够有效识别出人名、组织名、地名等实体，在准确率、F1值、精确率和召回率等指标上表现出色。

✨ 主要特性

实体类型

实体类型	详情
`PER`	人名
`ORG`	组织名
`LOC`	地名
`GEOPOLIT`	地缘政治相关实体（如国家、地区等）
`MEDIA`	媒体相关实体

评估指标

指标	数值
精确率（Precision）	0.793
召回率（Recall）	0.914
F1值（F1-score）	0.849
准确率（Accuracy）	0.972

📦 安装指南

暂未提供安装步骤相关内容。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

label2id = {
    'O': 0,
    'B-GEOPOLIT': 1, 'I-GEOPOLIT': 2,
    'B-MEDIA': 3,    'I-MEDIA': 4,
    'B-LOC': 5,      'I-LOC': 6,
    'B-ORG': 7,      'I-ORG': 8,
    'B-PER': 9,      'I-PER': 10
}
id2label = {v: k for k, v in label2id.items()}

model_id = "r1char9/ner-rubert-tiny-RuNews"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(
    model_id,
    num_labels=len(label2id),
    id2label=id2label,
    label2id=label2id
)

ner_pipeline = pipeline(
    "ner",
    model=model,
    tokenizer=tokenizer,
    aggregation_strategy="simple"
)

text = (
    "–ì–µ–Ω–µ—Ä–∞–ª—å–Ω—ã–π –¥–∏—Ä–µ–∫—Ç–æ—Ä –°–±–µ—Ä–±–∞–Ω–∫–∞ –ì–µ—Ä–º–∞–Ω –ì—Ä–µ—Ñ –Ω–∞ –∫–æ–Ω—Ñ–µ—Ä–µ–Ω—Ü–∏–∏ –≤ –ú–æ—Å–∫–≤–µ –∑–∞—è–≤–∏–ª, "
    "—á—Ç–æ —Å–æ—Ç—Ä—É–¥–Ω–∏—á–µ—Å—Ç–≤–æ —Å –Ø–Ω–¥–µ–∫—Å–æ–º –≤ –æ–±–ª–∞—Å—Ç–∏ –∏—Å–∫—É—Å—Å—Ç–≤–µ–Ω–Ω–æ–≥–æ –∏–Ω—Ç–µ–ª–ª–µ–∫—Ç–∞ –≤—ã—Ö–æ–¥–∏—Ç –Ω–∞ –Ω–æ–≤—ã–π —É—Ä–æ–≤–µ–Ω—å. "
    "–û–Ω —Ç–∞–∫–∂–µ –æ—Ç–º–µ—Ç–∏–ª, —á—Ç–æ –ø—Ä–∞–≤–∏—Ç–µ–ª—å—Å—Ç–≤–æ –†–æ—Å—Å–∏–π—Å–∫–æ–π –§–µ–¥–µ—Ä–∞—Ü–∏–∏ –ø–æ–¥–¥–µ—Ä–∂–∏–≤–∞–µ—Ç —Ä–∞–∑–≤–∏—Ç–∏–µ —Ü–∏—Ñ—Ä–æ–≤–æ–π —ç–∫–æ–Ω–æ–º–∏–∫–∏, "
    "–æ—Å–æ–±–µ–Ω–Ω–æ –≤ —Ä–∞–º–∫–∞—Ö –ï–≤—Ä–∞–∑–∏–π—Å–∫–æ–≥–æ —ç–∫–æ–Ω–æ–º–∏—á–µ—Å–∫–æ–≥–æ —Å–æ—é–∑–∞."
)

results = ner_pipeline(text)

for entity in results:
    print(entity)

# {'entity_group': 'ORG', 'score': 0.951569, 'word': '–°–±–µ—Ä–±–∞–Ω–∫–∞', 'start': 21, 'end': 30}
# {'entity_group': 'PER', 'score': 0.9922959, 'word': '–ì–µ—Ä–º–∞–Ω –ì—Ä–µ—Ñ', 'start': 31, 'end': 42}
# {'entity_group': 'LOC', 'score': 0.60198957, 'word': '–ú–æ—Å–∫–≤–µ', 'start': 60, 'end': 66}
# {'entity_group': 'ORG', 'score': 0.6973838, 'word': '–Ø–Ω–¥–µ–∫—Å–æ–º', 'start': 96, 'end': 104}
# {'entity_group': 'GEOPOLIT', 'score': 0.9631994, 'word': '–†–æ—Å—Å–∏–π—Å–∫–æ–π –§–µ–¥–µ—Ä–∞—Ü–∏–∏', 'start': 203, 'end': 223}
# {'entity_group': 'ORG', 'score': 0.85091865, 'word': '–ï–≤—Ä–∞–∑–∏–π—Å–∫–æ–≥–æ —ç–∫–æ–Ω–æ–º–∏—á–µ—Å–∫–æ–≥–æ —Å–æ—é–∑–∞.', 'start': 284, 'end': 318}