ner-english-ontonotes開源模型 - 免費部署進行英文18類命名實體識別

首頁

Ner English Ontonotes

由flair開發

Flair自帶的英文18類命名實體識別模型，基於Ontonotes數據集訓練，F1分數89.27。

序列標註

PyTorch

英語#18類實體識別 #高精度NER #LSTM-CRF架構

下載量 175.71k

發布時間 : 3/2/2022

模型概述

這是一個基於LSTM-CRF架構的序列標註模型，用於識別英文文本中的18種命名實體類型，包括人物、地點、日期、貨幣等。

模型特點

18類實體識別

能夠識別包括人物、地點、日期、貨幣等18種不同類型的命名實體

高精度

在Ontonotes數據集上達到89.27的F1分數

混合詞嵌入

結合了GloVe詞嵌入和Flair的上下文字符串嵌入

模型能力

文本實體識別

多類別實體分類

序列標註

使用案例

信息提取

新聞實體提取

從新聞文本中提取人物、地點、組織等關鍵信息

可準確識別文本中的各類命名實體

金融文檔處理

從金融文檔中提取貨幣金額、日期等信息

可準確識別貨幣數值和日期實體

🚀 Flair英文命名實體識別（Ontonotes默認模型）

本項目是一個用於英文的18類命名實體識別（NER）模型，它集成於 Flair 庫中。該模型基於 Flair嵌入和LSTM - CRF構建，在Ontonotes數據集上的F1分數達到了 89.27。

✨ 主要特性

多標籤預測：能夠預測18種不同類型的標籤，涵蓋日期、人物、組織等常見實體類型。
高性能：在Ontonotes數據集上表現出色，F1分數較高。
基於Flair：依託強大的Flair庫，具有良好的擴展性和易用性。

屬性	詳情
模型類型	18類英文命名實體識別模型
訓練數據	Ontonotes

該模型可預測的18種標籤及其含義如下：

標籤	含義
CARDINAL	基數數值
DATE	日期值
EVENT	事件名稱
FAC	建築物名稱
GPE	地緣政治實體
LANGUAGE	語言名稱
LAW	法律名稱
LOC	地點名稱
MONEY	貨幣名稱
NORP	所屬關係
ORDINAL	序數數值
ORG	組織名稱
PERCENT	百分比數值
PERSON	人物名稱
PRODUCT	產品名稱
QUANTITY	數量值
TIME	時間值
WORK_OF_ART	藝術作品名稱

🚀 快速開始

環境準備

需要安裝 Flair 庫，可以使用以下命令進行安裝：

pip install flair

💻 使用示例

基礎用法

以下是在Flair中使用該模型的示例代碼：

from flair.data import Sentence
from flair.models import SequenceTagger

# 加載標籤器
tagger = SequenceTagger.load("flair/ner-english-ontonotes")

# 創建示例句子
sentence = Sentence("On September 1st George Washington won 1 dollar.")

# 預測命名實體識別標籤
tagger.predict(sentence)

# 打印句子
print(sentence)

# 打印預測的命名實體識別跨度
print('The following NER tags are found:')
# 遍歷實體並打印
for entity in sentence.get_spans('ner'):
    print(entity)

運行上述代碼將產生以下輸出：

Span [2,3]: "September 1st"   [− Labels: DATE (0.8824)]
Span [4,5]: "George Washington"   [− Labels: PERSON (0.9604)]
Span [7,8]: "1 dollar"   [− Labels: MONEY (0.9837)]

這表明在句子 “On September 1st George Washington won 1 dollar.” 中，識別出了 “September 1st”（標籤為日期）、“George Washington”（標籤為人物）和 “1 dollar”（標籤為貨幣）這幾個實體。

🔧 技術細節

該模型基於 Flair嵌入和LSTM - CRF架構。以下是訓練該模型的Flair腳本：

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. 加載語料庫（Ontonotes未集成在Flair中，需要自行下載並重新格式化為列格式）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 確定要預測的標籤類型
tag_type = 'ner'

# 3. 從語料庫中創建標籤字典
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 初始化使用的每個嵌入
embedding_types = [

    # GloVe嵌入
    WordEmbeddings('en-crawl'),

    # 上下文字符串嵌入，前向
    FlairEmbeddings('news-forward'),

    # 上下文字符串嵌入，後向
    FlairEmbeddings('news-backward'),
]

# 嵌入棧由Flair和GloVe嵌入組成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. 初始化序列標籤器
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. 初始化訓練器
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 運行訓練
trainer.train('resources/taggers/ner-english-ontonotes',
              train_with_dev=True,
              max_epochs=150)

📄 許可證

文檔未提及相關許可證信息。

📚 引用

使用該模型時，請引用以下論文：

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}