bert-large-NER開源命名實體識別模型 - 免費部署實現先進的信息提取性能

首頁

Bert Large NER

由dslim開發

基於BERT-large微調的命名實體識別模型，在CoNLL-2003數據集上實現最先進性能

序列標註英語開源協議:MIT #命名實體識別 #高精度NER #BERT微調

下載量 360.98k

發布時間 : 3/2/2022

模型概述

該模型專門用於識別文本中的命名實體，包括地點(LOC)、組織(ORG)、人名(PER)和其他類別(MISC)。

模型特點

最先進的性能

在CoNLL-2003測試集上達到F1分數91.7的高性能表現

基於BERT-large

使用bert-large-cased作為基礎模型，具有更強的表示能力

四種實體識別

能夠準確識別地點、組織、人名和其他類別四種實體類型

模型能力

命名實體識別

文本標記分類

自然語言處理

使用案例

信息提取

新聞文章實體提取

從新聞文章中提取人名、組織名和地點名等關鍵信息

準確識別文本中的關鍵實體

文檔分析

分析商業文檔或法律文件中的命名實體

幫助快速定位文檔中的關鍵信息

🚀 bert-large-NER

bert-large-NER 是一個經過微調的 BERT 模型，可直接用於 命名實體識別（Named Entity Recognition），並在該任務中達到了 業界領先的性能。它經過訓練，能夠識別四種類型的實體：地點（LOC）、組織（ORG）、人物（PER）和其他（MISC）。

🚀 快速開始

如果你覺得我的開源模型對你有幫助，請考慮支持我為大家構建小型實用的 AI 模型（也能幫我支付醫學院的學費 / 在經濟上幫助我的父母）。感謝！

✨ 主要特性

微調模型：基於 bert-large-cased 模型，在英文標準 CoNLL - 2003 命名實體識別數據集上進行了微調。
多實體識別：能夠識別四種常見類型的實體，包括地點、組織、人物和其他。
高性能表現：在 CoNLL - 2003 數據集的測試集上，準確率達到 0.9031688753722759，F1 值達到 0.9196968510445761。

📦 安裝指南

暫未提供安裝步驟相關內容。

💻 使用示例

基礎用法

你可以使用 Transformers 的 pipeline 來進行命名實體識別。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

📚 詳細文檔

預期用途與限制

如何使用

可以使用上述代碼示例中的方式，利用 Transformers 的 pipeline 進行命名實體識別。

限制和偏差

該模型受其訓練數據集的限制，訓練數據為特定時間段內帶有實體標註的新聞文章。這可能導致它在不同領域的所有用例中泛化能力不佳。此外，模型偶爾會將子詞標記為實體，因此可能需要對結果進行後處理以處理這些情況。

訓練數據

此模型在英文標準 CoNLL - 2003 命名實體識別數據集上進行了微調。

訓練數據集區分了實體的開始和延續，這樣如果有連續的同類型實體，模型可以輸出第二個實體的起始位置。在數據集中，每個標記將被分類為以下類別之一：

縮寫	描述
O	命名實體之外
B - MIS	緊接在另一個其他實體之後的其他實體的開始
I - MIS	其他實體
B - PER	緊接在另一個人物名稱之後的人物名稱的開始
I - PER	人物名稱
B - ORG	緊接在另一個組織之後的組織的開始
I - ORG	組織
B - LOC	緊接在另一個地點之後的地點的開始
I - LOC	地點

CoNLL - 2003 英文數據集統計信息

該數據集源自路透社語料庫，由路透社新聞故事組成。你可以在 CoNLL - 2003 論文中瞭解更多關於此數據集的創建方式。

每個實體類型的訓練示例數量 | 數據集 | LOC | MISC | ORG | PER | |------|------|------|------|------| | Train | 7140 | 3438 | 6321 | 6600 | | Dev | 1837 | 922 | 1341 | 1842 | | Test | 1668 | 702 | 1661 | 1617 |
每個數據集的文章/句子/標記數量 | 數據集 | 文章 | 句子 | 標記 | |------|------|------|------| | Train | 946 | 14,987 | 203,621 | | Dev | 216 | 3,466 | 51,362 | | Test | 231 | 3,684 | 46,435 |

訓練過程

該模型在單個 NVIDIA V100 GPU 上進行訓練，使用了原始 BERT 論文中推薦的超參數，該論文在 CoNLL - 2003 命名實體識別任務上對模型進行了訓練和評估。

評估結果

指標	開發集	測試集
f1	95.7	91.7
precision	95.3	91.2
recall	96.1	92.3

測試指標略低於官方 Google BERT 的結果，後者對文檔上下文進行了編碼並對 CRF 進行了實驗。關於復現原始結果的更多信息點擊這裡。

BibTeX 引用和引用信息

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}