🚀 歷史報紙命名實體識別模型
historical_newspaper_ner 是一個經過微調的 Roberta-large 模型,適用於可能包含 OCR 錯誤的文本。它能夠識別四種類型的實體:地點(LOC)、組織(ORG)、人物(PER)和其他(MISC)。該模型在自定義的歷史報紙數據集上進行訓練,標籤高度準確,所有數據均由兩名高技能的哈佛本科生進行二次錄入,所有差異都經過人工解決。
🚀 快速開始
你可以使用 Transformers 管道將此模型用於命名實體識別(NER)任務。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dell-research-harvard/historical_newspaper_ner")
model = AutoModelForTokenClassification.from_pretrained("dell-research-harvard/historical_newspaper_ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 適用含 OCR 錯誤文本:該模型是針對可能包含 OCR 錯誤的文本進行微調的 Roberta-large 模型。
- 識別四種實體類型:能夠識別地點(LOC)、組織(ORG)、人物(PER)和其他(MISC)四種實體類型。
- 訓練數據準確:在自定義的歷史報紙數據集上進行訓練,標籤高度準確,所有數據均由兩名高技能的哈佛本科生進行二次錄入,所有差異都經過人工解決。
🔧 技術細節
訓練數據
訓練數據集區分實體的開始和延續,以便在出現連續的同類型實體時,模型能夠輸出第二個實體的起始位置。每個標記將被分類為以下類別之一:
縮寫 |
描述 |
O |
命名實體之外 |
B - MISC |
其他實體的開始 |
I - MISC |
其他實體 |
B - PER |
人物姓名的開始 |
I - PER |
人物姓名 |
B - ORG |
組織的開始 |
I - ORG |
組織 |
B - LOC |
地點的開始 |
I - LOC |
地點 |
該模型在從美國報紙進行 OCR 識別的歷史英文新聞上進行微調。與其他 NER 數據集不同,此數據的標籤高度準確。
訓練過程
使用該數據以 4.7e - 05 的學習率、128 的批量大小對 Roberta - Large 模型(Liu 等人,2020)進行了 184 個週期的微調。
評估結果
實體 |
F1 值 |
PER |
94.3 |
ORG |
80.7 |
LOC |
90.8 |
MISC |
79.6 |
總體(嚴格) |
86.5 |
總體(忽略實體類型) |
90.4 |
📄 許可證
本模型採用 CC - BY - 2.0 許可證。
⚠️ 重要提示
- 此模型在歷史新聞上進行訓練,可能反映特定時期的偏差,並且可能無法很好地推廣到其他場景。
- 模型偶爾會將子詞標記標記為實體,可能需要對結果進行後處理以處理這些情況。
💡 使用建議
如果你使用此模型,請引用以下論文:
@misc{franklin2024ndjv,
title={News Deja Vu: Connecting Past and Present with Semantic Search},
author={Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan and Melissa Dell},
year={2024},
eprint={2406.15593},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2406.15593},
}
你可以將此模型應用於一個世紀的歷史新聞文章,查看 NEWSWIRE 數據集 中的所有命名實體。