🚀 俄罗斯命名实体识别模型
本模型是一个用于识别俄语文本中命名实体(NER)的工具,基于bert-base-multilingual-cased
微调而来,能借助BIOLU标签格式识别多种实体类型,如人名、地点和组织等,在信息提取、内容分析等NLP任务中具有重要价值。
✨ 主要特性
- 该模型是
bert-base-multilingual-cased
的微调版本,专门用于俄语文本的命名实体识别。
- 能够使用BIOLU标签格式识别多种实体类型,包括人名、地点和组织等。
📦 安装指南
文档未提及安装步骤,暂不提供。
💻 使用示例
基础用法
from transformers import pipeline
ner_pipe = pipeline("ner", model="Gherman/bert-base-NER-Russian")
text = "Меня зовут Сергей Иванович из Москвы."
results = ner_pipe(text)
for result in results:
print(f"Word: {result['word']}, Entity: {result['entity']}, Score: {result['score']:.4f}")
📚 详细文档
预期用途与局限性
预期用途
该模型旨在识别俄语文本中的命名实体,可用于信息提取、内容分析以及下游NLP任务的文本预处理等任务。
局限性和偏差
- 模型的性能可能会因输入文本的领域和风格而异。
- 对于训练过程中未见过的罕见或复杂实体名称,模型可能难以处理。
- 模型可能会表现出训练数据中存在的偏差。
训练数据
该模型在 Detailed-NER-Dataset-RU by AlexKly 数据集上进行训练。这个数据集相当不错,推荐查看!
标签信息
该数据集使用BIOLU格式进行标注,其中:
- B:实体的起始标记
- I:实体内的标记
- O:其他(非实体)标记
- L:实体的最后一个标记
- U:单元标记(单标记实体)
数据集中包含以下实体类型:
- 地点(LOC)标签:
- COUNTRY
- REGION
- CITY
- DISTRICT
- STREET
- HOUSE
- 人物(PER)标签:
- LAST_NAME
- FIRST_NAME
- MIDDLE_NAME
例如,完整的标签可能像城市名称起始标记的 "B - CITY",或单标记国家名称的 "U - COUNTRY"。
训练过程
该模型使用Hugging Face Transformers库从bert-base-multilingual-cased
检查点进行微调。
训练超参数
训练过程中使用了以下超参数:
属性 |
详情 |
学习率 |
2e - 5 |
训练批次大小 |
16 |
评估批次大小 |
16 |
随机种子 |
42 |
优化器 |
带权重衰减修正的Adam |
学习率调度器类型 |
线性 |
训练轮数 |
10 |
框架版本
- Transformers 4.28.1
- Pytorch 1.13.0
- Datasets 2.12.0
- Tokenizers 0.13.3
评估结果
该模型在评估集上取得了以下结果:
- 精确率:0.987843
- 召回率:0.988498
- F1分数:0.988170
伦理考量
此模型旨在用于分析俄语文本,应负责任地使用。用户应意识到模型预测中可能存在的偏差,并谨慎使用结果,特别是在可能影响个人或群体的应用中。
📄 许可证
本项目采用MIT许可证。