H

Historical Newspaper Ner

由dell-research-harvard開發
基於Roberta-large微調的命名實體識別模型,專用於可能包含OCR錯誤的歷史報紙文本。
下載量 209
發布時間 : 9/14/2023

模型概述

該模型能夠識別四類實體:地點(LOC)、組織(ORG)、人物(PER)和其他類別(MISC),適用於歷史新聞文本分析。

模型特點

高精度標註
訓練數據由哈佛大學本科生雙重錄入並人工核對,標註質量極高。
OCR容錯
專為可能包含OCR錯誤的文本優化,適用於歷史報紙等低質量文本。
實體類型區分
能夠區分實體的起始與延續部分,有效處理同類實體連續出現的情況。

模型能力

命名實體識別
歷史文本分析
OCR錯誤文本處理

使用案例

歷史研究
歷史人物識別
從歷史報紙中識別重要人物姓名及其相關信息。
PER實體F1值達94.3
歷史地點分析
識別歷史事件發生地點,用於地理空間分析。
LOC實體F1值達90.8
檔案數字化
報紙內容結構化
將掃描的報紙OCR文本轉化為結構化數據,便於檢索和分析。
總體嚴格匹配F1值86.5
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase