ner-english-ontonotes-fast开源模型 - 基于Ontonotes数据集，快速识别英语18类命名实体

首页

Ner English Ontonotes Fast

由 flair 开发

Flair自带的18类英语命名实体识别快速模型，基于Ontonotes数据集训练

序列标注

PyTorch

英语#18类实体识别 #快速推理 #英语文本处理

下载量 23.94k

发布时间 : 3/2/2022

模型简介

该模型用于英语文本中的命名实体识别，能够识别18种不同类型的命名实体，如人名、地点、日期等。

模型特点

18类实体识别

能够识别包括人物、地点、日期、货币等18种不同类型的命名实体。

高性能

在Ontonotes数据集上达到89.3的F1分数。

快速推理

优化后的模型版本，提供更快的推理速度。

Flair词嵌入

结合Flair特有的上下文词嵌入技术，提升识别准确率。

模型能力

文本实体识别

多类别实体标注

序列标注

使用案例

信息提取

新闻文本分析

从新闻文章中提取人名、地点、组织等关键信息

准确识别文本中的各类命名实体

金融文档处理

识别金融文档中的货币金额、日期等信息

提取关键金融数据

知识图谱构建

实体关系抽取

作为知识图谱构建的前期处理步骤

为后续关系抽取提供实体标注

🚀 Flair中的英文命名实体识别（Ontonotes快速模型）

本项目是 Flair 自带的英文18类命名实体识别（NER）模型的快速版本。该模型基于 Flair嵌入和LSTM - CRF构建，在Ontonotes数据集上的F1分数达到了 89.3。

✨ 主要特性

多标签预测：能够预测18种不同类型的标签，涵盖了日期、人物、组织等常见实体类型。
快速版本：在保证一定准确率的同时，具有更快的运行速度。
基于Flair：依托强大的Flair框架，便于集成和使用。

预测的18种标签

标签	含义
CARDINAL	基数数值
DATE	日期值
EVENT	事件名称
FAC	建筑物名称
GPE	地缘政治实体
LANGUAGE	语言名称
LAW	法律名称
LOC	地点名称
MONEY	货币名称
NORP	所属关系
ORDINAL	序数数值
ORG	组织名称
PERCENT	百分比数值
PERSON	人物名称
PRODUCT	产品名称
QUANTITY	数量值
TIME	时间值
WORK_OF_ART	艺术作品名称

📦 安装指南

使用该模型需要安装 Flair，可以通过以下命令进行安装：

pip install flair

💻 使用示例

基础用法

from flair.data import Sentence
from flair.models import SequenceTagger

# 加载标签器
tagger = SequenceTagger.load("flair/ner-english-ontonotes-fast")

# 创建示例句子
sentence = Sentence("On September 1st George Washington won 1 dollar.")

# 预测NER标签
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印预测的NER实体
print('The following NER tags are found:')
# 遍历实体并打印
for entity in sentence.get_spans('ner'):
    print(entity)

上述代码的输出如下：

Span [2,3]: "September 1st"   [− Labels: DATE (0.9655)]
Span [4,5]: "George Washington"   [− Labels: PERSON (0.8243)]
Span [7,8]: "1 dollar"   [− Labels: MONEY (0.8022)]

这表明在句子 “On September 1st George Washington won 1 dollar.” 中，识别出了 “September 1st”（日期）、“George Washington”（人物）和 “1 dollar”（货币）这几个实体。

🔧 技术细节

该模型基于 Flair嵌入和LSTM - CRF构建。以下是训练该模型的脚本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加载语料库（Ontonotes不随Flair提供，你需要自行下载并重新格式化为列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 我们要预测的标签类型
tag_type = 'ner'

# 3. 从语料库中创建标签字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化我们使用的每种嵌入
embedding_types = [

    # GloVe嵌入
    WordEmbeddings('en-crawl'),

    # 上下文字符串嵌入，前向
    FlairEmbeddings('news-forward-fast'),

    # 上下文字符串嵌入，后向
    FlairEmbeddings('news-backward-fast'),
]

# 嵌入栈由Flair和GloVe嵌入组成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列标签器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化训练器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 开始训练
trainer.train('resources/taggers/ner-english-ontonotes-fast',
              train_with_dev=True,
              max_epochs=150)

📄 引用说明

使用该模型时，请引用以下论文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}