🚀 历史报纸命名实体识别模型
historical_newspaper_ner 是一个经过微调的 Roberta-large 模型,适用于可能包含 OCR 错误的文本。它能够识别四种类型的实体:地点(LOC)、组织(ORG)、人物(PER)和其他(MISC)。该模型在自定义的历史报纸数据集上进行训练,标签高度准确,所有数据均由两名高技能的哈佛本科生进行二次录入,所有差异都经过人工解决。
🚀 快速开始
你可以使用 Transformers 管道将此模型用于命名实体识别(NER)任务。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dell-research-harvard/historical_newspaper_ner")
model = AutoModelForTokenClassification.from_pretrained("dell-research-harvard/historical_newspaper_ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
✨ 主要特性
- 适用含 OCR 错误文本:该模型是针对可能包含 OCR 错误的文本进行微调的 Roberta-large 模型。
- 识别四种实体类型:能够识别地点(LOC)、组织(ORG)、人物(PER)和其他(MISC)四种实体类型。
- 训练数据准确:在自定义的历史报纸数据集上进行训练,标签高度准确,所有数据均由两名高技能的哈佛本科生进行二次录入,所有差异都经过人工解决。
🔧 技术细节
训练数据
训练数据集区分实体的开始和延续,以便在出现连续的同类型实体时,模型能够输出第二个实体的起始位置。每个标记将被分类为以下类别之一:
缩写 |
描述 |
O |
命名实体之外 |
B - MISC |
其他实体的开始 |
I - MISC |
其他实体 |
B - PER |
人物姓名的开始 |
I - PER |
人物姓名 |
B - ORG |
组织的开始 |
I - ORG |
组织 |
B - LOC |
地点的开始 |
I - LOC |
地点 |
该模型在从美国报纸进行 OCR 识别的历史英文新闻上进行微调。与其他 NER 数据集不同,此数据的标签高度准确。
训练过程
使用该数据以 4.7e - 05 的学习率、128 的批量大小对 Roberta - Large 模型(Liu 等人,2020)进行了 184 个周期的微调。
评估结果
实体 |
F1 值 |
PER |
94.3 |
ORG |
80.7 |
LOC |
90.8 |
MISC |
79.6 |
总体(严格) |
86.5 |
总体(忽略实体类型) |
90.4 |
📄 许可证
本模型采用 CC - BY - 2.0 许可证。
⚠️ 重要提示
- 此模型在历史新闻上进行训练,可能反映特定时期的偏差,并且可能无法很好地推广到其他场景。
- 模型偶尔会将子词标记标记为实体,可能需要对结果进行后处理以处理这些情况。
💡 使用建议
如果你使用此模型,请引用以下论文:
@misc{franklin2024ndjv,
title={News Deja Vu: Connecting Past and Present with Semantic Search},
author={Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan and Melissa Dell},
year={2024},
eprint={2406.15593},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2406.15593},
}
你可以将此模型应用于一个世纪的历史新闻文章,查看 NEWSWIRE 数据集 中的所有命名实体。