nerkor-cars-onpp-hubert开源命名实体识别模型 - 支持30多种类型匈牙利语实体识别

首页

Nerkor Cars Onpp Hubert

由 novakat 开发

基于SZTAKI-HLT/hubert-base-cc预训练模型，在NerKor+CARS-ONPP语料库上微调的匈牙利语命名实体识别模型，支持30多种实体类型。

序列标注

Transformers

其他#匈牙利语NER #多实体类型扩展 #新闻领域优化

下载量 6,780

发布时间 : 3/2/2022

模型简介

该模型是一个匈牙利语命名实体识别(NER)模型，能够识别包括人物、地点、组织、时间、数量等多种实体类型，适用于匈牙利语文本的实体标注任务。

模型特点

广泛的实体类型支持

支持30多种实体类型，包括OntoNotes 5.0标准类型和新增的匈牙利语特定类型。

大规模训练数据

基于NerKor+CARS-ONPP语料库训练，包含约100万标记的匈牙利语黄金标准标注数据。

专业领域扩展

新增了1.2万标记的机动车辆领域文本，增强特定领域的识别能力。

模型能力

识别匈牙利语文本中的命名实体

分类30多种实体类型

处理新闻领域文本

识别机动车辆相关实体

使用案例

信息提取

新闻文本分析

从匈牙利语新闻文章中提取人物、组织、地点等关键信息

可用于构建知识图谱或事件分析

汽车领域实体识别

识别汽车相关文章中的车辆型号、品牌等特定实体

支持汽车行业市场分析

文本标注

语料库构建

为匈牙利语NLP研究提供预标注数据

加速研究过程

🚀 匈牙利命名实体识别模型（OntoNotes5 + 更多实体类型）

本模型是用于匈牙利语命名实体识别的模型，基于预训练模型微调而来，能识别多种实体类型，在相关语料上有良好表现。

🚀 快速开始

预训练模型：SZTAKI - HLT/hubert - base - cc
在NerKor + CARS - ONPP语料库上进行微调

🔧 技术细节

限制条件

最大序列长度 = 448

训练数据

基础语料 [NerKor + CARS - OntoNotes++](https://github.com/ppke - nlpg/NYTK - NerKor - Cars - OntoNotesPP) 源自 [NYTK - NerKor](https://github.com/nytud/NYTK - NerKor)，这是一个匈牙利语的黄金标准命名实体标注语料库，包含约100万个标记。它还额外添加了来自 hvg.hu 新闻存档中关于机动车（汽车、公交车、摩托车）的1.2万个标记的文本（单个句子）。

NYTK - NerKor 的标注遵循CoNLL2002标注标准，只有四种命名实体类别（PER、LOC、MISC、ORG），而此版本的语料库有超过30种实体类型，包括 [OntoNotes 5.0] 英语命名实体识别标注中使用的所有实体类型。新的标注详细说明了 LOC 和 MISC 实体类型的子类型，并对非名称（如时间和日期、数量、语言和国籍或宗教或政治团体）进行了标注。此外，标注还细化了OntoNotes 5标注中不存在的其他实体子类型（见下文）。

源自OntoNotes 5.0标注的标签

名称根据以下类型集进行标注：

属性	详情
`PER`	= 人物，包括虚构人物
`FAC`	= 设施，如建筑物、机场、高速公路、桥梁等
`ORG`	= 组织，如公司、机构等
`GPE`	地缘政治实体：国家、城市、州
`LOC`	= 位置，非地缘政治位置，如山脉、水域
`PROD`	= 产品，如车辆、武器、食品等（不包括服务）
`EVENT`	命名的飓风、战役、战争、体育赛事等
`WORK_OF_ART`	书籍、歌曲等的标题
`LAW`	成为法律的命名文件

以下也以类似名称的方式进行标注：

属性	详情
`NORP`	国籍或宗教或政治团体
`LANGUAGE`	任何命名的语言
`DATE`	绝对或相对日期或时期
`TIME`	小于一天的时间
`PERCENT`	百分比（包括 "%"）
`MONEY`	货币价值，包括单位
`QUANTITY`	测量值，如重量或距离
`ORDINAL`	“第一”、“第二”等
`CARDINAL`	不属于其他类型的数字

额外标签（OntoNotes 5中没有）

类型为 `MISC` 的名称的其他子类型

属性	详情
`AWARD`	奖项和奖品
`CAR`	汽车和其他机动车
`MEDIA`	媒体机构、电视频道、新闻门户
`SMEDIA`	社交媒体平台
`PROJ`	项目和倡议
`MISC`	未解决的 `MISC` 实体子类型
`MISC - ORG`	类似组织的未解决的 `MISC` 实体子类型

其他非名称实体

属性	详情
`DUR`	持续时间
`AGE`	年龄
`ID`	标识符

📄 许可证

本项目采用GPL许可证。

引用说明

如果您使用此模型，请引用以下文献：

@inproceedings{novak-novak-2022-nerkor,
    title = "{N}er{K}or+{C}ars-{O}nto{N}otes++",
    author = "Nov{\'a}k, Attila  and
      Nov{\'a}k, Borb{\'a}la",
    booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
    month = jun,
    year = "2022",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://aclanthology.org/2022.lrec-1.203",
    pages = "1907--1916",
    abstract = "In this paper, we present an upgraded version of the Hungarian NYTK-NerKor named entity corpus, which contains about twice as many annotated spans and 7 times as many distinct entity types as the original version. We used an extended version of the OntoNotes 5 annotation scheme including time and numerical expressions. NerKor is the newest and biggest NER corpus for Hungarian containing diverse domains. We applied cross-lingual transfer of NER models trained for other languages based on multilingual contextual language models to preannotate the corpus. We corrected the annotation semi-automatically and manually. Zero-shot preannotation was very effective with about 0.82 F1 score for the best model. We also added a 12000-token subcorpus on cars and other motor vehicles. We trained and release a transformer-based NER tagger for Hungarian using the annotation in the new corpus version, which provides similar performance to an identical model trained on the original version of the corpus.",
}