ner-english-ontonotes开源模型 - 免费部署进行英文18类命名实体识别

首页

Ner English Ontonotes

由 flair 开发

Flair自带的英文18类命名实体识别模型，基于Ontonotes数据集训练，F1分数89.27。

序列标注

PyTorch

英语#18类实体识别 #高精度NER #LSTM-CRF架构

下载量 175.71k

发布时间 : 3/2/2022

模型简介

这是一个基于LSTM-CRF架构的序列标注模型，用于识别英文文本中的18种命名实体类型，包括人物、地点、日期、货币等。

模型特点

18类实体识别

能够识别包括人物、地点、日期、货币等18种不同类型的命名实体

高精度

在Ontonotes数据集上达到89.27的F1分数

混合词嵌入

结合了GloVe词嵌入和Flair的上下文字符串嵌入

模型能力

文本实体识别

多类别实体分类

序列标注

使用案例

信息提取

新闻实体提取

从新闻文本中提取人物、地点、组织等关键信息

可准确识别文本中的各类命名实体

金融文档处理

从金融文档中提取货币金额、日期等信息

可准确识别货币数值和日期实体

🚀 Flair英文命名实体识别（Ontonotes默认模型）

本项目是一个用于英文的18类命名实体识别（NER）模型，它集成于 Flair 库中。该模型基于 Flair嵌入和LSTM - CRF构建，在Ontonotes数据集上的F1分数达到了 89.27。

✨ 主要特性

多标签预测：能够预测18种不同类型的标签，涵盖日期、人物、组织等常见实体类型。
高性能：在Ontonotes数据集上表现出色，F1分数较高。
基于Flair：依托强大的Flair库，具有良好的扩展性和易用性。

属性	详情
模型类型	18类英文命名实体识别模型
训练数据	Ontonotes

该模型可预测的18种标签及其含义如下：

标签	含义
CARDINAL	基数数值
DATE	日期值
EVENT	事件名称
FAC	建筑物名称
GPE	地缘政治实体
LANGUAGE	语言名称
LAW	法律名称
LOC	地点名称
MONEY	货币名称
NORP	所属关系
ORDINAL	序数数值
ORG	组织名称
PERCENT	百分比数值
PERSON	人物名称
PRODUCT	产品名称
QUANTITY	数量值
TIME	时间值
WORK_OF_ART	艺术作品名称

🚀 快速开始

环境准备

需要安装 Flair 库，可以使用以下命令进行安装：

pip install flair

💻 使用示例

基础用法

以下是在Flair中使用该模型的示例代码：

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/ner-english-ontonotes")

# 创建示例句子
sentence = Sentence("On September 1st George Washington won 1 dollar.")

# 预测命名实体识别标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的命名实体识别跨度
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('ner'):
    print(entity)

运行上述代码将产生以下输出：

Span [2,3]: "September 1st"   [− Labels: DATE (0.8824)]
Span [4,5]: "George Washington"   [− Labels: PERSON (0.9604)]
Span [7,8]: "1 dollar"   [− Labels: MONEY (0.9837)]

这表明在句子 “On September 1st George Washington won 1 dollar.” 中，识别出了 “September 1st”（标签为日期）、“George Washington”（标签为人物）和 “1 dollar”（标签为货币）这几个实体。

🔧 技术细节

该模型基于 Flair嵌入和LSTM - CRF架构。以下是训练该模型的Flair脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes未集成在Flair中，需要自行下载并重新格式化为列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 确定要预测的标签类型
tag_type = 'ner'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化使用的每个嵌入
embedding_types = [

    # GloVe嵌入
    WordEmbeddings('en-crawl'),

    # 上下文字符串嵌入，前向
    FlairEmbeddings('news-forward'),

    # 上下文字符串嵌入，后向
    FlairEmbeddings('news-backward'),
]

# 嵌入栈由Flair和GloVe嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 运行训练
trainer.train('resources/taggers/ner-english-ontonotes',
              train_with_dev=True,
              max_epochs=150)

📄 许可证

文档未提及相关许可证信息。

📚 引用

使用该模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}