bert-large-uncased-finetuned-ner开源模型 - 免费部署精准命名实体识别

首页

Bert Large Uncased Finetuned Ner

由 Jorgeutd 开发

基于bert-large-uncased在conll2003数据集上微调的命名实体识别模型

序列标注

Transformers

英语开源协议:Apache-2.0 #高精度NER #新闻领域实体识别 #BERT微调

下载量 1,712

发布时间 : 3/2/2022

模型简介

该模型是一个用于命名实体识别(NER)任务的BERT模型，在conll2003数据集上进行了微调，能够识别文本中的人名、地名、组织名等实体。

模型特点

高精度实体识别

在conll2003数据集上取得了95.05%的精确率和95.75%的召回率

基于BERT-large架构

使用bert-large-uncased作为基础模型，具有更强的语义理解能力

专业领域适应

针对新闻领域的实体识别进行了专门优化

模型能力

识别文本中的人名

识别文本中的地名

识别文本中的组织名

处理英语文本

使用案例

信息提取

新闻文章实体提取

从新闻文章中提取人名、地名和组织名等关键实体信息

可帮助快速理解新闻内容的关键元素

客户服务自动化

从客户投诉或咨询文本中提取关键实体信息

提高客户服务系统的自动化处理能力

知识图谱构建

实体关系抽取

作为知识图谱构建的第一步，识别文本中的关键实体

为后续实体关系分析提供基础

🚀 大型无大小写区分的BERT模型微调命名实体识别

此模型是在CoNLL2003数据集上对bert-large-uncased进行微调后的版本。它在评估集上取得了以下效果：

损失值：0.0778
精确率：0.9505
召回率：0.9575
F1值：0.9540
准确率：0.9886

🚀 快速开始

本模型可通过Transformers的 pipeline 用于命名实体识别（NER）。

基础用法

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Scott and I live in Ohio"
ner_results = nlp(example)
print(ner_results)

✨ 主要特性

基于大型无大小写区分的BERT模型进行微调，在CoNLL2003数据集上有良好表现。
能够对文本中的命名实体进行有效识别。

📦 安装指南

文档未提供安装相关内容，暂不展示。

💻 使用示例

基础用法

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Scott and I live in Ohio"
ner_results = nlp(example)
print(ner_results)

📚 详细文档

模型描述

需要更多信息。

局限性和偏差

此模型受其训练数据集的限制，该数据集为特定时间段内带有实体标注的新闻文章。这可能导致它在不同领域的所有用例中泛化能力不佳。此外，模型偶尔会将子词标记为实体，可能需要对结果进行后处理以处理这些情况。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：2e - 05
训练批次大小：16
评估批次大小：64
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练轮数：10

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	准确率
0.1997	1.0	878	0.0576	0.9316	0.9257	0.9286	0.9837
0.04	2.0	1756	0.0490	0.9400	0.9513	0.9456	0.9870
0.0199	3.0	2634	0.0557	0.9436	0.9540	0.9488	0.9879
0.0112	4.0	3512	0.0602	0.9443	0.9569	0.9506	0.9881
0.0068	5.0	4390	0.0631	0.9451	0.9589	0.9520	0.9882
0.0044	6.0	5268	0.0638	0.9510	0.9567	0.9538	0.9885
0.003	7.0	6146	0.0722	0.9495	0.9560	0.9527	0.9885
0.0016	8.0	7024	0.0762	0.9491	0.9595	0.9543	0.9887
0.0018	9.0	7902	0.0769	0.9496	0.9542	0.9519	0.9883
0.0009	10.0	8780	0.0778	0.9505	0.9575	0.9540	0.9886