🚀 bert-large-NER
bert-large-NER 是一个经过微调的 BERT 模型,可直接用于 命名实体识别(Named Entity Recognition),并在该任务中达到了 业界领先的性能。它经过训练,能够识别四种类型的实体:地点(LOC)、组织(ORG)、人物(PER)和其他(MISC)。
🚀 快速开始
如果你觉得我的开源模型对你有帮助,请考虑支持我为大家构建小型实用的 AI 模型(也能帮我支付医学院的学费 / 在经济上帮助我的父母)。感谢!

✨ 主要特性
- 微调模型:基于 bert-large-cased 模型,在英文标准 CoNLL - 2003 命名实体识别 数据集上进行了微调。
- 多实体识别:能够识别四种常见类型的实体,包括地点、组织、人物和其他。
- 高性能表现:在 CoNLL - 2003 数据集的测试集上,准确率达到 0.9031688753722759,F1 值达到 0.9196968510445761。
📦 安装指南
暂未提供安装步骤相关内容。
💻 使用示例
基础用法
你可以使用 Transformers 的 pipeline 来进行命名实体识别。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
📚 详细文档
预期用途与限制
如何使用
可以使用上述代码示例中的方式,利用 Transformers 的 pipeline 进行命名实体识别。
限制和偏差
该模型受其训练数据集的限制,训练数据为特定时间段内带有实体标注的新闻文章。这可能导致它在不同领域的所有用例中泛化能力不佳。此外,模型偶尔会将子词标记为实体,因此可能需要对结果进行后处理以处理这些情况。
训练数据
此模型在英文标准 CoNLL - 2003 命名实体识别 数据集上进行了微调。
训练数据集区分了实体的开始和延续,这样如果有连续的同类型实体,模型可以输出第二个实体的起始位置。在数据集中,每个标记将被分类为以下类别之一:
缩写 |
描述 |
O |
命名实体之外 |
B - MIS |
紧接在另一个其他实体之后的其他实体的开始 |
I - MIS |
其他实体 |
B - PER |
紧接在另一个人物名称之后的人物名称的开始 |
I - PER |
人物名称 |
B - ORG |
紧接在另一个组织之后的组织的开始 |
I - ORG |
组织 |
B - LOC |
紧接在另一个地点之后的地点的开始 |
I - LOC |
地点 |
CoNLL - 2003 英文数据集统计信息
该数据集源自路透社语料库,由路透社新闻故事组成。你可以在 CoNLL - 2003 论文中了解更多关于此数据集的创建方式。
- 每个实体类型的训练示例数量
| 数据集 | LOC | MISC | ORG | PER |
|------|------|------|------|------|
| Train | 7140 | 3438 | 6321 | 6600 |
| Dev | 1837 | 922 | 1341 | 1842 |
| Test | 1668 | 702 | 1661 | 1617 |
- 每个数据集的文章/句子/标记数量
| 数据集 | 文章 | 句子 | 标记 |
|------|------|------|------|
| Train | 946 | 14,987 | 203,621 |
| Dev | 216 | 3,466 | 51,362 |
| Test | 231 | 3,684 | 46,435 |
训练过程
该模型在单个 NVIDIA V100 GPU 上进行训练,使用了 原始 BERT 论文 中推荐的超参数,该论文在 CoNLL - 2003 命名实体识别任务上对模型进行了训练和评估。
评估结果
指标 |
开发集 |
测试集 |
f1 |
95.7 |
91.7 |
precision |
95.3 |
91.2 |
recall |
96.1 |
92.3 |
测试指标略低于官方 Google BERT 的结果,后者对文档上下文进行了编码并对 CRF 进行了实验。关于复现原始结果的更多信息 点击这里。
BibTeX 引用和引用信息
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F. and
De Meulder, Fien",
booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
year = "2003",
url = "https://www.aclweb.org/anthology/W03-0419",
pages = "142--147",
}
📄 许可证
本项目采用 MIT 许可证。