N

Nel Mgenre Multilingual

由impresso-project開發
基於mGENRE的多語言生成式實體檢索模型,針對歷史文本優化,支持100+種語言,特別適配法語、德語和英語的歷史文檔實體鏈接。
下載量 17.13k
發布時間 : 4/9/2024

模型概述

該模型採用mBART架構,通過約束生成技術將文本中的命名實體鏈接到Wikidata實體,特別適用於處理歷史文檔中的OCR噪聲和變體名稱。

模型特點

多語言支持
支持100+種語言的實體鏈接,特別優化了法語、德語和英語的歷史文本處理
歷史文本適配
專門針對歷史文檔中的OCR噪聲和名稱變體進行優化
約束生成技術
採用約束束搜索直接輸出映射到Wikidata/QID的實體名稱
跨時代鏈接
能夠將歷史名稱準確鏈接到現代Wikidata實體

模型能力

多語言實體識別
命名實體消歧
歷史名稱鏈接
文本到實體生成
OCR噪聲環境下的實體識別

使用案例

歷史檔案處理
歷史報紙分析
從歷史報紙中提取並鏈接人物、地點等實體
準確識別並鏈接受OCR噪聲影響的實體名稱
傳記生成輔助
通過鏈接歷史人物實體輔助生成人物傳記
建立歷史人物與現代知識庫的關聯
跨時代知識關聯
歷史事件分析
將歷史文檔中的事件參與者鏈接到統一知識庫
實現歷史事件與現代知識圖譜的整合
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase