🚀 bert-base-NER
bert-base-NER 是一個經過微調的BERT模型,可直接用於命名實體識別,在NER任務中達到了業界領先的性能。該模型能夠識別四種類型的實體:位置(LOC)、組織(ORG)、人物(PER)和其他(MISC)。
🚀 快速開始
你可以使用Transformers的 pipeline 來使用這個模型進行NER任務。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/bert-base-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-base-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
可用的NER模型
📚 詳細文檔
預期用途與侷限性
侷限性和偏差
該模型受限於其訓練數據集,該數據集是特定時間段內帶有實體標註的新聞文章。因此,它可能無法很好地泛化到不同領域的所有用例。此外,該模型偶爾會將子詞標記為實體,可能需要對結果進行後處理以處理這些情況。
訓練數據
該模型在標準 CoNLL-2003命名實體識別 數據集的英文版本上進行了微調。
訓練數據集區分了實體的開始和延續,這樣如果有連續的同類型實體,模型可以輸出第二個實體的起始位置。在數據集中,每個標記將被分類為以下類別之一:
縮寫 |
描述 |
O |
命名實體之外 |
B-MISC |
緊接在另一個其他實體之後的其他實體的開始 |
I-MISC |
其他實體 |
B-PER |
緊接在另一個人物名稱之後的人物名稱的開始 |
I-PER |
人物名稱 |
B-ORG |
緊接在另一個組織之後的組織的開始 |
I-ORG |
組織 |
B-LOC |
緊接在另一個位置之後的位置的開始 |
I-LOC |
位置 |
CoNLL - 2003英文數據集統計信息
該數據集源自路透社語料庫,該語料庫由路透社新聞報道組成。你可以在CoNLL - 2003論文中瞭解更多關於該數據集的創建方式。
每個實體類型的訓練示例數量
數據集 |
位置(LOC) |
其他(MISC) |
組織(ORG) |
人物(PER) |
訓練集 |
7140 |
3438 |
6321 |
6600 |
驗證集 |
1837 |
922 |
1341 |
1842 |
測試集 |
1668 |
702 |
1661 |
1617 |
每個數據集的文章/句子/標記數量
數據集 |
文章數量 |
句子數量 |
標記數量 |
訓練集 |
946 |
14,987 |
203,621 |
驗證集 |
216 |
3,466 |
51,362 |
測試集 |
231 |
3,684 |
46,435 |
訓練過程
該模型在單個NVIDIA V100 GPU上進行訓練,使用了 原始BERT論文 中推薦的超參數,該論文在CoNLL - 2003 NER任務上對模型進行了訓練和評估。
評估結果
指標 |
驗證集 |
測試集 |
F1 |
95.1 |
91.3 |
精確率 |
95.0 |
90.7 |
召回率 |
95.3 |
91.9 |
測試指標略低於官方Google BERT的結果,官方結果對文檔上下文進行了編碼並對CRF進行了實驗。有關復現原始結果的更多信息,請參閱 此處。
BibTeX引用和引用信息
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F. and
De Meulder, Fien",
booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
year = "2003",
url = "https://www.aclweb.org/anthology/W03-0419",
pages = "142--147",
}
📄 許可證
本項目採用MIT許可證。