開源nel - mgenre - multilingual模型 - 支持100+語言，適配多語種歷史文檔實體檢索

首頁

Nel Mgenre Multilingual

由impresso-project開發

基於mGENRE的多語言生成式實體檢索模型，針對歷史文本優化，支持100+種語言，特別適配法語、德語和英語的歷史文檔實體鏈接。

知識圖譜

Transformers

支持多種語言#歷史文本實體鏈接 #多語言實體消歧 #Wikidata映射

下載量 17.13k

發布時間 : 4/9/2024

模型概述

該模型採用mBART架構，通過約束生成技術將文本中的命名實體鏈接到Wikidata實體，特別適用於處理歷史文檔中的OCR噪聲和變體名稱。

模型特點

多語言支持

支持100+種語言的實體鏈接，特別優化了法語、德語和英語的歷史文本處理

歷史文本適配

專門針對歷史文檔中的OCR噪聲和名稱變體進行優化

約束生成技術

採用約束束搜索直接輸出映射到Wikidata/QID的實體名稱

跨時代鏈接

能夠將歷史名稱準確鏈接到現代Wikidata實體

模型能力

多語言實體識別

命名實體消歧

歷史名稱鏈接

文本到實體生成

OCR噪聲環境下的實體識別

使用案例

歷史檔案處理

歷史報紙分析

從歷史報紙中提取並鏈接人物、地點等實體

準確識別並鏈接受OCR噪聲影響的實體名稱

傳記生成輔助

通過鏈接歷史人物實體輔助生成人物傳記

建立歷史人物與現代知識庫的關聯

跨時代知識關聯

歷史事件分析

將歷史文檔中的事件參與者鏈接到統一知識庫

實現歷史事件與現代知識圖譜的整合

🚀 `impresso-project/nel-mgenre-multilingual`模型卡

Impresso多語言命名實體鏈接（NEL） 模型基於 De Cao等人提出的 mGENRE（多語言生成式實體檢索），這是一種基於 mBART 的用於實體消歧的序列到序列架構。它使用 約束生成 來輸出映射到維基數據/QID的實體名稱。

該模型針對歷史文本進行了調整，並在 HIPE - 2022數據集上進行了微調，該數據集包含各種歷史文檔類型和語言。

📚 詳細文檔

模型描述

開發者：來自 Impresso團隊的EPFL。該項目是一個跨學科項目，專注於跨語言、跨時間和跨模態的歷史媒體分析。由瑞士國家科學基金會（CRSII5_173719，CRSII5_213585）和盧森堡國家研究基金會（資助編號17498891）資助。
模型類型：基於mBART的序列到序列模型，使用約束束搜索進行命名實體鏈接
語言支持：多語言（100 + 種語言，針對法語、德語和英語進行了優化）
許可證：AGPL v3+
微調基礎模型：facebook/mgenre-wiki

模型架構

架構：基於mBART的序列到序列模型，使用約束束搜索

🔧 技術細節

訓練數據

該模型在以下數據集上進行訓練：

數據集別名	說明文檔	文檔類型	語言	適用場景	項目
ajmc	鏈接	古典註釋	德語、法語、英語	粗粒度命名實體識別、細粒度命名實體識別、實體鏈接	AjMC
hipe2020	鏈接	歷史報紙	德語、法語、英語	粗粒度命名實體識別、細粒度命名實體識別、實體鏈接	CLEF - HIPE - 2020
topres19th	鏈接	歷史報紙	英語	粗粒度命名實體識別、實體鏈接	Living with Machines
newseye	鏈接	歷史報紙	德語、芬蘭語、法語、瑞典語	粗粒度命名實體識別、細粒度命名實體識別、實體鏈接	NewsEye
sonar	鏈接	歷史報紙	德語	粗粒度命名實體識別、實體鏈接	SoNAR

💻 使用示例

基礎用法

from transformers import AutoTokenizer, pipeline

NEL_MODEL_NAME = "impresso-project/nel-mgenre-multilingual"
nel_tokenizer = AutoTokenizer.from_pretrained(NEL_MODEL_NAME)

nel_pipeline = pipeline("generic-nel", model=NEL_MODEL_NAME,
                        tokenizer=nel_tokenizer,
                        trust_remote_code=True,
                        device='cpu')

sentence = "Le 0ctobre 1894, [START] Dreyfvs [END] est arrêté à Paris, accusé d'espionnage pour l'Allemagne — un événement qui déch1ra la société fr4nçaise pendant des années."
print(nel_pipeline(sentence))

輸出格式

[
    {
        'surface': 'Dreyfvs', 
        'wkd_id': 'Q171826', 
        'wkpedia_pagename': 'Alfred Dreyfus', 
        'wkpedia_url': 'https://fr.wikipedia.org/wiki/Alfred_Dreyfus', 
        'type': 'UNK', 
        'confidence_nel': 99.98, 
        'lOffset': 24, 
        'rOffset': 33}]