roberta-large-ner-english开源英文命名实体识别模型

首页

Roberta Large Ner English

由 ydshieh 开发

基于roberta-large模型在conll2003数据集上微调的英文命名实体识别模型，特别优化了非首字母大写实体的识别效果

序列标注

Transformers

英语#英文命名实体识别 #非正式文本优化 #高精度NER

下载量 36

发布时间 : 3/23/2022

模型简介

该模型用于英文命名实体识别任务，能够识别文本中的人名、机构名、地名等实体，在电子邮件/聊天数据上表现优异

模型特点

优化非首字母大写实体识别

特别针对非首字母大写的实体进行了优化，在此类情况下表现优于其他模型

邮件/聊天数据表现优异

在非正式文本如电子邮件和聊天数据上的识别效果优于传统NER模型

多类别实体识别

能够识别人名(PER)、机构名(ORG)、地名(LOC)和杂项(MISC)等多种实体类型

模型能力

英文命名实体识别

非正式文本实体提取

多类别实体分类

使用案例

信息提取

电子邮件实体提取

从电子邮件中提取人名、公司名等关键信息

在私有数据集上人名识别F1值达0.8967

聊天记录分析

分析聊天记录中提到的地点、人物等信息

优于Spacy等传统NER模型在非正式文本上的表现

知识图谱构建

实体关系抽取

作为知识图谱构建的前置步骤，识别文本中的关键实体

🚀 roberta-large-ner-english：基于roberta-large微调的英文命名实体识别模型

[roberta-large-ner-english] 是一个英文命名实体识别（NER）模型，它基于 roberta-large 在 conll2003 数据集上进行了微调。该模型在电子邮件和聊天数据上进行了验证，尤其在这类数据上的表现优于其他模型。特别是，该模型在处理不以大写字母开头的实体时效果更佳。

✨ 主要特性

基于 roberta-large 微调，在 conll2003 数据集上训练。
在电子邮件和聊天数据等验证集上表现出色。
对不以大写字母开头的实体识别效果更好。

📦 安装指南

本文未提及安装步骤，若需使用该模型，可参考 Hugging Face 相关文档进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")

# 处理文本样本（来自维基百科）
from transformers import pipeline

nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple was founded in 1976 by Steve Jobs, Steve Wozniak and Ronald Wayne to develop and sell Wozniak's Apple I personal computer")

[{'entity_group': 'ORG',
  'score': 0.99381506,
  'word': ' Apple',
  'start': 0,
  'end': 5},
 {'entity_group': 'PER',
  'score': 0.99970853,
  'word': ' Steve Jobs',
  'start': 29,
  'end': 39},
 {'entity_group': 'PER',
  'score': 0.99981767,
  'word': ' Steve Wozniak',
  'start': 41,
  'end': 54},
 {'entity_group': 'PER',
  'score': 0.99956465,
  'word': ' Ronald Wayne',
  'start': 59,
  'end': 71},
 {'entity_group': 'PER',
  'score': 0.9997918,
  'word': ' Wozniak',
  'start': 92,
  'end': 99},
 {'entity_group': 'MISC',
  'score': 0.99956393,
  'word': ' Apple I',
  'start': 102,
  'end': 109}]

📚 详细文档

训练数据

训练数据的分类如下：

缩写	描述
O	非命名实体
MISC	其他实体
PER	人名
ORG	组织
LOC	地点

为了简化，移除了原始 conll2003 数据集中的前缀 B- 或 I-。使用原始 conll2003 数据集的训练集和测试集进行训练，使用“验证”数据集进行验证。最终数据集的规模如下：

训练集	验证集
17494	3250

模型性能

在 conll2003 验证数据集上计算的模型性能（基于词元预测）：

实体	精确率	召回率	F1值
PER	0.9914	0.9927	0.9920
ORG	0.9627	0.9661	0.9644
LOC	0.9795	0.9862	0.9828
MISC	0.9292	0.9262	0.9277
总体	0.9740	0.9766	0.9753

在私有数据集（电子邮件、聊天、非正式讨论）上基于单词预测计算的性能：

实体	精确率	召回率	F1值
PER	0.8823	0.9116	0.8967
ORG	0.7694	0.7292	0.7487
LOC	0.8619	0.7768	0.8171

相比之下，在相同的私有数据集上，Spacy (en_core_web_trf-3.2.0) 的表现如下：

实体	精确率	召回率	F1值
PER	0.9146	0.8287	0.8695
ORG	0.7655	0.6437	0.6993
LOC	0.8727	0.6180	0.7236

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库