🚀 命名实体识别(NER)-RuBERT-tiny-RuNews
本项目专注于俄语新闻的命名实体识别(NER)任务,旨在从俄语新闻文本中精准识别并分类出各类实体。
模型基于 RuBERT-tiny2 进行微调,在 Collection3 数据集上训练,该数据集涵盖了丰富的俄语新闻文本。模型能够有效识别出人名、组织名、地名等实体,在准确率、F1值、精确率和召回率等指标上表现出色。
✨ 主要特性
实体类型
实体类型 |
详情 |
PER |
人名 |
ORG |
组织名 |
LOC |
地名 |
GEOPOLIT |
地缘政治相关实体(如国家、地区等) |
MEDIA |
媒体相关实体 |
评估指标
指标 |
数值 |
精确率(Precision) |
0.793 |
召回率(Recall) |
0.914 |
F1值(F1-score) |
0.849 |
准确率(Accuracy) |
0.972 |
📦 安装指南
暂未提供安装步骤相关内容。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
label2id = {
'O': 0,
'B-GEOPOLIT': 1, 'I-GEOPOLIT': 2,
'B-MEDIA': 3, 'I-MEDIA': 4,
'B-LOC': 5, 'I-LOC': 6,
'B-ORG': 7, 'I-ORG': 8,
'B-PER': 9, 'I-PER': 10
}
id2label = {v: k for k, v in label2id.items()}
model_id = "r1char9/ner-rubert-tiny-RuNews"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(
model_id,
num_labels=len(label2id),
id2label=id2label,
label2id=label2id
)
ner_pipeline = pipeline(
"ner",
model=model,
tokenizer=tokenizer,
aggregation_strategy="simple"
)
text = (
"–ì–µ–Ω–µ—Ä–∞–ª—å–Ω—ã–π –¥–∏—Ä–µ–∫—Ç–æ—Ä –°–±–µ—Ä–±–∞–Ω–∫–∞ –ì–µ—Ä–º–∞–Ω –ì—Ä–µ—Ñ –Ω–∞ –∫–æ–Ω—Ñ–µ—Ä–µ–Ω—Ü–∏–∏ –≤ –ú–æ—Å–∫–≤–µ –∑–∞—è–≤–∏–ª, "
"—á—Ç–æ —Å–æ—Ç—Ä—É–¥–Ω–∏—á–µ—Å—Ç–≤–æ —Å –Ø–Ω–¥–µ–∫—Å–æ–º –≤ –æ–±–ª–∞—Å—Ç–∏ –∏—Å–∫—É—Å—Å—Ç–≤–µ–Ω–Ω–æ–≥–æ –∏–Ω—Ç–µ–ª–ª–µ–∫—Ç–∞ –≤—ã—Ö–æ–¥–∏—Ç –Ω–∞ –Ω–æ–≤—ã–π —É—Ä–æ–≤–µ–Ω—å. "
"–û–Ω —Ç–∞–∫–∂–µ –æ—Ç–º–µ—Ç–∏–ª, —á—Ç–æ –ø—Ä–∞–≤–∏—Ç–µ–ª—å—Å—Ç–≤–æ –†–æ—Å—Å–∏–π—Å–∫–æ–π –§–µ–¥–µ—Ä–∞—Ü–∏–∏ –ø–æ–¥–¥–µ—Ä–∂–∏–≤–∞–µ—Ç —Ä–∞–∑–≤–∏—Ç–∏–µ —Ü–∏—Ñ—Ä–æ–≤–æ–π —ç–∫–æ–Ω–æ–º–∏–∫–∏, "
"–æ—Å–æ–±–µ–Ω–Ω–æ –≤ —Ä–∞–º–∫–∞—Ö –ï–≤—Ä–∞–∑–∏–π—Å–∫–æ–≥–æ —ç–∫–æ–Ω–æ–º–∏—á–µ—Å–∫–æ–≥–æ —Å–æ—é–∑–∞."
)
results = ner_pipeline(text)
for entity in results:
print(entity)
高级用法
暂未提供高级用法相关代码内容。
📚 详细文档
暂未提供详细说明相关内容。
🔧 技术细节
暂未提供技术实现细节相关内容。
📄 许可证
本项目采用 MIT 许可证。