ner-english-ontonotes-large開源英語命名實體識別模型

首頁

Ner English Ontonotes Large

由flair開發

Flair自帶的英語18類命名實體識別大模型，基於Ontonotes數據集訓練，採用XLM-R嵌入和FLERT技術。

序列標註

PyTorch

英語#18類實體識別 #文檔級XLM-R嵌入 #FLERT技術

下載量 176.21k

發布時間 : 3/2/2022

模型概述

該模型用於英語文本中的命名實體識別，能夠識別18種不同類型的命名實體，如人物、地點、日期等。

模型特點

多類別識別

能夠識別18種不同類型的命名實體，包括人物、地點、日期、貨幣金額等。

高性能

在Ontonotes數據集上的F1分數達到90.93，表現優異。

文檔級上下文

採用FLERT技術，利用文檔級上下文信息提升識別準確率。

模型能力

命名實體識別

多類別實體標註

英語文本處理

使用案例

文本分析

新聞文本實體識別

識別新聞文本中的人物、地點、日期等實體。

準確標註各類實體，便於後續分析和處理。

金融文本分析

識別金融文本中的貨幣金額、百分比等實體。

幫助自動化處理金融數據。

🚀 Flair英文命名實體識別（Ontonotes大模型）

本項目是一個用於英文的18類命名實體識別（NER）大模型，它集成於 Flair 庫中。該模型在英文文本的實體識別任務中表現出色，能準確識別多種類型的實體。

模型指標

在Ontonotes數據集上，模型的F1分數達到了 90.93，展現了其優秀的性能。

可預測的標籤

模型能夠預測以下18種標籤：

標籤	含義
CARDINAL	基數詞
DATE	日期
EVENT	事件名稱
FAC	建築物名稱
GPE	地理政治實體
LANGUAGE	語言名稱
LAW	法律名稱
LOC	地點名稱
MONEY	貨幣名稱
NORP	關聯關係
ORDINAL	序數詞
ORG	組織名稱
PERCENT	百分比
PERSON	人名
PRODUCT	產品名稱
QUANTITY	數量
TIME	時間
WORK_OF_ART	藝術作品名稱

技術基礎

該模型基於文檔級的XLM - R嵌入和 FLERT 技術構建，能夠充分利用文檔上下文信息，提高實體識別的準確性。

🚀 快速開始

環境要求

需要安裝 Flair 庫，可以使用以下命令進行安裝：

pip install flair

代碼示例

from flair.data import Sentence
from flair.models import SequenceTagger

# 加載標籤器
tagger = SequenceTagger.load("flair/ner-english-ontonotes-large")

# 創建示例句子
sentence = Sentence("On September 1st George won 1 dollar while watching Game of Thrones.")

# 預測命名實體識別標籤
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印預測的命名實體識別跨度
print('The following NER tags are found:')
# 遍歷實體並打印
for entity in sentence.get_spans('ner'):
    print(entity)

輸出結果

Span [2,3]: "September 1st"   [− Labels: DATE (1.0)]
Span [4]: "George"   [− Labels: PERSON (1.0)]
Span [6,7]: "1 dollar"   [− Labels: MONEY (1.0)]
Span [10,11,12]: "Game of Thrones"   [− Labels: WORK_OF_ART (1.0)]

從輸出結果可以看出，在句子 "On September 1st George Washington won 1 dollar while watching Game of Thrones" 中，識別出了實體 "September 1st"（標籤為日期）、"George"（標籤為人名）、"1 dollar"（標籤為貨幣）和 "Game of Thrones"（標籤為 藝術作品）。

🔧 訓練腳本

以下是用於訓練該模型的Flair腳本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加載語料庫（Ontonotes未集成在Flair中，需要自行下載並重新格式化為列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 我們要預測的標籤類型是什麼？
tag_type = 'ner'

# 3. 從語料庫中創建標籤字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化可微調的Transformer嵌入，並使用文檔上下文
from flair.embeddings import TransformerWordEmbeddings

embeddings = TransformerWordEmbeddings(
    model='xlm-roberta-large',
    layers="-1",
    subtoken_pooling="first",
    fine_tune=True,
    use_context=True,
)

# 5. 初始化基礎的序列標籤器（無CRF、無RNN、無重新投影）
from flair.models import SequenceTagger

tagger = SequenceTagger(
    hidden_size=256,
    embeddings=embeddings,
    tag_dictionary=tag_dictionary,
    tag_type='ner',
    use_crf=False,
    use_rnn=False,
    reproject_embeddings=False,
)

# 6. 使用AdamW優化器初始化訓練器
from flair.trainers import ModelTrainer
import torch

trainer = ModelTrainer(tagger, corpus, optimizer=torch.optim.AdamW)

# 7. 使用XLM參數運行訓練（20個epoch，小學習率）
from torch.optim.lr_scheduler import OneCycleLR

trainer.train('resources/taggers/ner-english-ontonotes-large',
              learning_rate=5.0e-6,
              mini_batch_size=4,
              mini_batch_chunk_size=1,
              max_epochs=20,
              scheduler=OneCycleLR,
              embeddings_storage_mode='none',
              weight_decay=0.,
              )

📄 引用說明

使用該模型時，請引用以下論文：

@misc{schweter2020flert,
    title={FLERT: Document-Level Features for Named Entity Recognition},
    author={Stefan Schweter and Alan Akbik},
    year={2020},
    eprint={2011.06993},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}