🚀 BERT中文命名实体识别(bert4ner)模型
BERT中文命名实体识别模型,可用于中文文本中的实体识别任务,在PEOPLE测试集上接近SOTA水平。
✨ 主要特性
- 在PEOPLE测试集上有接近SOTA的表现。
- 开源在实体识别项目
nerpy
,方便调用。
- 提供多种使用方式,支持不同场景需求。
📦 安装指南
使用nerpy
调用模型
本项目开源在实体识别项目:nerpy,可支持bert4ner模型。若使用nerpy
,可通过如下命令调用:
pip install nerpy
使用HuggingFace Transformers调用模型
若不使用nerpy
,可按以下步骤操作。首先,你需要将输入数据通过transformer模型处理,然后应用bio标签来获取实体词。
安装所需包:
pip install transformers seqeval
💻 使用示例
基础用法(使用nerpy
)
from nerpy import NERModel
model = NERModel("bert", "shibing624/bert4ner-base-chinese")
predictions, raw_outputs, entities = model.predict(["常建良,男,1963年出生,工科学士,高级工程师"], split_on_space=False)
print("entities:", entities)
输出结果:
entities: [('常建良', 'PER'), ('1963年', 'TIME')]
高级用法(使用HuggingFace Transformers)
import os
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification
from seqeval.metrics.sequence_labeling import get_entities
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"
tokenizer = AutoTokenizer.from_pretrained("shibing624/bert4ner-base-chinese")
model = AutoModelForTokenClassification.from_pretrained("shibing624/bert4ner-base-chinese")
label_list = ['I-ORG', 'B-LOC', 'O', 'B-ORG', 'I-LOC', 'I-PER', 'B-TIME', 'I-TIME', 'B-PER']
sentence = "王宏伟来自北京,是个警察,喜欢去王府井游玩儿。"
def get_entity(sentence):
tokens = tokenizer.tokenize(sentence)
inputs = tokenizer.encode(sentence, return_tensors="pt")
with torch.no_grad():
outputs = model(inputs).logits
predictions = torch.argmax(outputs, dim=2)
char_tags = [(token, label_list[prediction]) for token, prediction in zip(tokens, predictions[0].numpy())][1:-1]
print(sentence)
print(char_tags)
pred_labels = [i[1] for i in char_tags]
entities = []
line_entities = get_entities(pred_labels)
for i in line_entities:
word = sentence[i[1]: i[2] + 1]
entity_type = i[0]
entities.append((word, entity_type))
print("Sentence entity:")
print(entities)
get_entity(sentence)
输出结果:
王宏伟来自北京,是个警察,喜欢去王府井游玩儿。
[('王', 'B-PER'), ('宏', 'I-PER'), ('伟', 'I-PER'), ('来', 'O'), ('自', 'O'), ('北', 'B-LOC'), ('京', 'I-LOC'), (',', 'O'), ('是', 'O'), ('个', 'O'), ('警', 'O'), ('察', 'O'), (',', 'O'), ('喜', 'O'), ('欢', 'O'), ('去', 'O'), ('王', 'B-LOC'), ('府', 'I-LOC'), ('井', 'I-LOC'), ('游', 'O'), ('玩', 'O'), ('儿', 'O'), ('。', 'O')]
Sentence entity:
[('王宏伟', 'PER'), ('北京', 'LOC'), ('王府井', 'LOC')]
📚 详细文档
模型评估
bert4ner-base-chinese
在PEOPLE(人民日报)测试数据上的评估结果如下:
BERT在PEOPLE测试集上的整体表现:
|
准确率 |
召回率 |
F1值 |
BertSoftmax |
0.9425 |
0.9627 |
0.9525 |
该模型在PEOPLE的测试集上达到接近SOTA水平。
网络结构
BertSoftmax的网络结构(原生BERT):

模型文件组成
bert4ner-base-chinese
├── config.json
├── model_args.json
├── pytorch_model.bin
├── special_tokens_map.json
├── tokenizer_config.json
└── vocab.txt
训练数据集
中文实体识别数据集
CNER中文实体识别数据集的数据格式:
美 B-LOC
国 I-LOC
的 O
华 B-PER
莱 I-PER
士 I-PER
我 O
跟 O
他 O
若需要训练bert4ner,请参考https://github.com/shibing624/nerpy/tree/main/examples
📄 许可证
本项目采用Apache-2.0许可证。
📚 引用
@software{nerpy,
author = {Xu Ming},
title = {nerpy: Named Entity Recognition toolkit},
year = {2022},
url = {https://github.com/shibing624/nerpy},
}