🚀 bert-large-NER
bert-large-NER 是一個經過微調的 BERT 模型,可直接用於 命名實體識別(Named Entity Recognition),並在該任務中達到了 業界領先的性能。它經過訓練,能夠識別四種類型的實體:地點(LOC)、組織(ORG)、人物(PER)和其他(MISC)。
🚀 快速開始
如果你覺得我的開源模型對你有幫助,請考慮支持我為大家構建小型實用的 AI 模型(也能幫我支付醫學院的學費 / 在經濟上幫助我的父母)。感謝!

✨ 主要特性
- 微調模型:基於 bert-large-cased 模型,在英文標準 CoNLL - 2003 命名實體識別 數據集上進行了微調。
- 多實體識別:能夠識別四種常見類型的實體,包括地點、組織、人物和其他。
- 高性能表現:在 CoNLL - 2003 數據集的測試集上,準確率達到 0.9031688753722759,F1 值達到 0.9196968510445761。
📦 安裝指南
暫未提供安裝步驟相關內容。
💻 使用示例
基礎用法
你可以使用 Transformers 的 pipeline 來進行命名實體識別。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
📚 詳細文檔
預期用途與限制
如何使用
可以使用上述代碼示例中的方式,利用 Transformers 的 pipeline 進行命名實體識別。
限制和偏差
該模型受其訓練數據集的限制,訓練數據為特定時間段內帶有實體標註的新聞文章。這可能導致它在不同領域的所有用例中泛化能力不佳。此外,模型偶爾會將子詞標記為實體,因此可能需要對結果進行後處理以處理這些情況。
訓練數據
此模型在英文標準 CoNLL - 2003 命名實體識別 數據集上進行了微調。
訓練數據集區分了實體的開始和延續,這樣如果有連續的同類型實體,模型可以輸出第二個實體的起始位置。在數據集中,每個標記將被分類為以下類別之一:
縮寫 |
描述 |
O |
命名實體之外 |
B - MIS |
緊接在另一個其他實體之後的其他實體的開始 |
I - MIS |
其他實體 |
B - PER |
緊接在另一個人物名稱之後的人物名稱的開始 |
I - PER |
人物名稱 |
B - ORG |
緊接在另一個組織之後的組織的開始 |
I - ORG |
組織 |
B - LOC |
緊接在另一個地點之後的地點的開始 |
I - LOC |
地點 |
CoNLL - 2003 英文數據集統計信息
該數據集源自路透社語料庫,由路透社新聞故事組成。你可以在 CoNLL - 2003 論文中瞭解更多關於此數據集的創建方式。
- 每個實體類型的訓練示例數量
| 數據集 | LOC | MISC | ORG | PER |
|------|------|------|------|------|
| Train | 7140 | 3438 | 6321 | 6600 |
| Dev | 1837 | 922 | 1341 | 1842 |
| Test | 1668 | 702 | 1661 | 1617 |
- 每個數據集的文章/句子/標記數量
| 數據集 | 文章 | 句子 | 標記 |
|------|------|------|------|
| Train | 946 | 14,987 | 203,621 |
| Dev | 216 | 3,466 | 51,362 |
| Test | 231 | 3,684 | 46,435 |
訓練過程
該模型在單個 NVIDIA V100 GPU 上進行訓練,使用了 原始 BERT 論文 中推薦的超參數,該論文在 CoNLL - 2003 命名實體識別任務上對模型進行了訓練和評估。
評估結果
指標 |
開發集 |
測試集 |
f1 |
95.7 |
91.7 |
precision |
95.3 |
91.2 |
recall |
96.1 |
92.3 |
測試指標略低於官方 Google BERT 的結果,後者對文檔上下文進行了編碼並對 CRF 進行了實驗。關於復現原始結果的更多信息 點擊這裡。
BibTeX 引用和引用信息
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F. and
De Meulder, Fien",
booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
year = "2003",
url = "https://www.aclweb.org/anthology/W03-0419",
pages = "142--147",
}
📄 許可證
本項目採用 MIT 許可證。