roberta-large-ner-english开源英语命名实体识别模型

首页

Roberta Large Ner English

由 Jean-Baptiste 开发

基于RoBERTa-large微调的英语命名实体识别模型，在conll2003数据集上训练，特别优化了电子邮件/聊天数据的实体识别能力。

序列标注

Transformers

英语开源协议:MIT #非正式文本NER #RoBERTa-large微调 #邮件聊天实体识别

下载量 236.85k

发布时间 : 3/2/2022

模型简介

该模型专注于英语命名实体识别任务，尤其擅长处理非正式文本（如邮件/聊天）中的实体识别，对非首字母大写的实体识别效果更佳。

模型特点

优化的非正式文本处理

在电子邮件和聊天数据上验证，表现优于其他模型，特别适合处理非正式文本。

非首字母大写实体识别

对非首字母大写的实体识别效果显著优于其他模型。

简化的标签体系

移除了B-和I-前缀，使用简化的PER/ORG/LOC/MISC/O五类标签体系。

模型能力

英语命名实体识别

非正式文本处理

多类别实体分类

使用案例

文本分析

电子邮件签名检测

识别电子邮件中的签名部分和包含的人名、职位等信息

可用于训练LSTM模型进行签名检测（参考提供的Medium文章）

聊天记录分析

从即时通讯或聊天记录中提取人名、组织名和地点等信息

在私有数据集上PER实体F1值达0.8967

信息提取

新闻文本分析

从新闻文章中提取人名、组织名和地点等关键信息

在conll2003验证集上综合F1值达0.9753

🚀 roberta-large-ner-english：基于roberta-large针对命名实体识别（NER）任务微调的模型

[roberta-large-ner-english] 是一个英文命名实体识别（NER）模型，它基于 roberta-large 在 conll2003 数据集上进行了微调。该模型在电子邮件/聊天数据上进行了验证，尤其在这类数据上的表现优于其他模型。特别是，该模型在处理不以大写字母开头的实体时似乎效果更好。

✨ 主要特性

基于 roberta-large 微调，在 conll2003 数据集上训练。
在电子邮件/聊天数据上验证，对特定类型数据表现出色。
对不以大写字母开头的实体处理效果更佳。

📦 安装指南

文档未提及具体安装步骤，可参考 Hugging Face 相关库的安装方法。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")

# Process text sample (from wikipedia)
from transformers import pipeline

nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
nlp("Apple was founded in 1976 by Steve Jobs, Steve Wozniak and Ronald Wayne to develop and sell Wozniak's Apple I personal computer")

高级用法

# 高级用法可根据具体需求对模型进行进一步配置和使用，例如调整聚合策略等。
# 这里展示的代码与基础用法类似，可根据实际情况修改
from transformers import AutoTokenizer, AutoModelForTokenClassification

tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/roberta-large-ner-english")
model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/roberta-large-ner-english")

from transformers import pipeline

# 可尝试不同的聚合策略
nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="first")
nlp("Apple was founded in 1976 by Steve Jobs, Steve Wozniak and Ronald Wayne to develop and sell Wozniak's Apple I personal computer")

📚 详细文档

训练数据

训练数据的分类如下：

缩写	描述
O	命名实体之外
MISC	其他杂项实体
PER	人名
ORG	组织
LOC	地点

为了简化，原 conll2003 数据集中的前缀 B- 或 I- 被移除。使用原 conll2003 数据集的训练集和测试集进行训练，使用 “验证” 数据集进行验证，得到的数据集规模如下：

训练集	验证集
17494	3250

模型性能

在 conll2003 验证数据集上计算的模型性能（基于标记预测）：

实体	精确率	召回率	F1值
PER	0.9914	0.9927	0.9920
ORG	0.9627	0.9661	0.9644
LOC	0.9795	0.9862	0.9828
MISC	0.9292	0.9262	0.9277
总体	0.9740	0.9766	0.9753

在私有数据集（电子邮件、聊天、非正式讨论）上基于单词预测计算的性能：

实体	精确率	召回率	F1值
PER	0.8823	0.9116	0.8967
ORG	0.7694	0.7292	0.7487
LOC	0.8619	0.7768	0.8171

相比之下，在相同的私有数据集上，Spacy (en_core_web_trf-3.2.0) 的表现如下：

实体	精确率	召回率	F1值
PER	0.9146	0.8287	0.8695
ORG	0.7655	0.6437	0.6993
LOC	0.8727	0.6180	0.7236

对于感兴趣的人，这里有一篇关于如何使用该模型的结果来训练用于电子邮件签名检测的 LSTM 模型的短文：LSTM model for email signature detection

📄 许可证

本项目采用 MIT 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库