开源nel - mgenre - multilingual模型 - 支持100+语言，适配多语种历史文档实体检索

首页

Nel Mgenre Multilingual

由 impresso-project 开发

基于mGENRE的多语言生成式实体检索模型，针对历史文本优化，支持100+种语言，特别适配法语、德语和英语的历史文档实体链接。

知识图谱

Transformers

支持多种语言#历史文本实体链接 #多语言实体消歧 #Wikidata映射

下载量 17.13k

发布时间 : 4/9/2024

模型简介

该模型采用mBART架构，通过约束生成技术将文本中的命名实体链接到Wikidata实体，特别适用于处理历史文档中的OCR噪声和变体名称。

模型特点

多语言支持

支持100+种语言的实体链接，特别优化了法语、德语和英语的历史文本处理

历史文本适配

专门针对历史文档中的OCR噪声和名称变体进行优化

约束生成技术

采用约束束搜索直接输出映射到Wikidata/QID的实体名称

跨时代链接

能够将历史名称准确链接到现代Wikidata实体

模型能力

多语言实体识别

命名实体消歧

历史名称链接

文本到实体生成

OCR噪声环境下的实体识别

使用案例

历史档案处理

历史报纸分析

从历史报纸中提取并链接人物、地点等实体

准确识别并链接受OCR噪声影响的实体名称

传记生成辅助

通过链接历史人物实体辅助生成人物传记

建立历史人物与现代知识库的关联

跨时代知识关联

历史事件分析

将历史文档中的事件参与者链接到统一知识库

实现历史事件与现代知识图谱的整合

🚀 `impresso-project/nel-mgenre-multilingual`模型卡

Impresso多语言命名实体链接（NEL） 模型基于 De Cao等人提出的 mGENRE（多语言生成式实体检索），这是一种基于 mBART 的用于实体消歧的序列到序列架构。它使用 约束生成 来输出映射到维基数据/QID的实体名称。

该模型针对历史文本进行了调整，并在 HIPE - 2022数据集上进行了微调，该数据集包含各种历史文档类型和语言。

📚 详细文档

模型描述

开发者：来自 Impresso团队的EPFL。该项目是一个跨学科项目，专注于跨语言、跨时间和跨模态的历史媒体分析。由瑞士国家科学基金会（CRSII5_173719，CRSII5_213585）和卢森堡国家研究基金会（资助编号17498891）资助。
模型类型：基于mBART的序列到序列模型，使用约束束搜索进行命名实体链接
语言支持：多语言（100 + 种语言，针对法语、德语和英语进行了优化）
许可证：AGPL v3+
微调基础模型：facebook/mgenre-wiki

模型架构

架构：基于mBART的序列到序列模型，使用约束束搜索

🔧 技术细节

训练数据

该模型在以下数据集上进行训练：

数据集别名	说明文档	文档类型	语言	适用场景	项目
ajmc	链接	古典注释	德语、法语、英语	粗粒度命名实体识别、细粒度命名实体识别、实体链接	AjMC
hipe2020	链接	历史报纸	德语、法语、英语	粗粒度命名实体识别、细粒度命名实体识别、实体链接	CLEF - HIPE - 2020
topres19th	链接	历史报纸	英语	粗粒度命名实体识别、实体链接	Living with Machines
newseye	链接	历史报纸	德语、芬兰语、法语、瑞典语	粗粒度命名实体识别、细粒度命名实体识别、实体链接	NewsEye
sonar	链接	历史报纸	德语	粗粒度命名实体识别、实体链接	SoNAR

💻 使用示例

基础用法

from transformers import AutoTokenizer, pipeline

NEL_MODEL_NAME = "impresso-project/nel-mgenre-multilingual"
nel_tokenizer = AutoTokenizer.from_pretrained(NEL_MODEL_NAME)

nel_pipeline = pipeline("generic-nel", model=NEL_MODEL_NAME,
                        tokenizer=nel_tokenizer,
                        trust_remote_code=True,
                        device='cpu')

sentence = "Le 0ctobre 1894, [START] Dreyfvs [END] est arrêté à Paris, accusé d'espionnage pour l'Allemagne — un événement qui déch1ra la société fr4nçaise pendant des années."
print(nel_pipeline(sentence))

输出格式

[
    {
        'surface': 'Dreyfvs', 
        'wkd_id': 'Q171826', 
        'wkpedia_pagename': 'Alfred Dreyfus', 
        'wkpedia_url': 'https://fr.wikipedia.org/wiki/Alfred_Dreyfus', 
        'type': 'UNK', 
        'confidence_nel': 99.98, 
        'lOffset': 24, 
        'rOffset': 33}]