🚀 匈牙利命名实体识别模型(OntoNotes5 + 更多实体类型)
本模型是用于匈牙利语命名实体识别的模型,基于预训练模型微调而来,能识别多种实体类型,在相关语料上有良好表现。
🚀 快速开始
- 预训练模型:SZTAKI - HLT/hubert - base - cc
- 在NerKor + CARS - ONPP语料库上进行微调
🔧 技术细节
限制条件
训练数据
基础语料 [NerKor + CARS - OntoNotes++](https://github.com/ppke - nlpg/NYTK - NerKor - Cars - OntoNotesPP) 源自 [NYTK - NerKor](https://github.com/nytud/NYTK - NerKor),这是一个匈牙利语的黄金标准命名实体标注语料库,包含约100万个标记。它还额外添加了来自 hvg.hu 新闻存档中关于机动车(汽车、公交车、摩托车)的1.2万个标记的文本(单个句子)。
NYTK - NerKor 的标注遵循CoNLL2002标注标准,只有四种命名实体类别(PER
、LOC
、MISC
、ORG
),而此版本的语料库有超过30种实体类型,包括 [OntoNotes 5.0] 英语命名实体识别标注中使用的所有实体类型。新的标注详细说明了 LOC
和 MISC
实体类型的子类型,并对非名称(如时间和日期、数量、语言和国籍或宗教或政治团体)进行了标注。此外,标注还细化了OntoNotes 5标注中不存在的其他实体子类型(见下文)。
源自OntoNotes 5.0标注的标签
名称根据以下类型集进行标注:
属性 |
详情 |
PER |
= 人物,包括虚构人物 |
FAC |
= 设施,如建筑物、机场、高速公路、桥梁等 |
ORG |
= 组织,如公司、机构等 |
GPE |
地缘政治实体:国家、城市、州 |
LOC |
= 位置,非地缘政治位置,如山脉、水域 |
PROD |
= 产品,如车辆、武器、食品等(不包括服务) |
EVENT |
命名的飓风、战役、战争、体育赛事等 |
WORK_OF_ART |
书籍、歌曲等的标题 |
LAW |
成为法律的命名文件 |
以下也以类似名称的方式进行标注:
属性 |
详情 |
NORP |
国籍或宗教或政治团体 |
LANGUAGE |
任何命名的语言 |
DATE |
绝对或相对日期或时期 |
TIME |
小于一天的时间 |
PERCENT |
百分比(包括 "%") |
MONEY |
货币价值,包括单位 |
QUANTITY |
测量值,如重量或距离 |
ORDINAL |
“第一”、“第二”等 |
CARDINAL |
不属于其他类型的数字 |
额外标签(OntoNotes 5中没有)
类型为 MISC
的名称的其他子类型
属性 |
详情 |
AWARD |
奖项和奖品 |
CAR |
汽车和其他机动车 |
MEDIA |
媒体机构、电视频道、新闻门户 |
SMEDIA |
社交媒体平台 |
PROJ |
项目和倡议 |
MISC |
未解决的 MISC 实体子类型 |
MISC - ORG |
类似组织的未解决的 MISC 实体子类型 |
其他非名称实体
属性 |
详情 |
DUR |
持续时间 |
AGE |
年龄 |
ID |
标识符 |
📄 许可证
本项目采用GPL许可证。
引用说明
如果您使用此模型,请引用以下文献:
@inproceedings{novak-novak-2022-nerkor,
title = "{N}er{K}or+{C}ars-{O}nto{N}otes++",
author = "Nov{\'a}k, Attila and
Nov{\'a}k, Borb{\'a}la",
booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
month = jun,
year = "2022",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2022.lrec-1.203",
pages = "1907--1916",
abstract = "In this paper, we present an upgraded version of the Hungarian NYTK-NerKor named entity corpus, which contains about twice as many annotated spans and 7 times as many distinct entity types as the original version. We used an extended version of the OntoNotes 5 annotation scheme including time and numerical expressions. NerKor is the newest and biggest NER corpus for Hungarian containing diverse domains. We applied cross-lingual transfer of NER models trained for other languages based on multilingual contextual language models to preannotate the corpus. We corrected the annotation semi-automatically and manually. Zero-shot preannotation was very effective with about 0.82 F1 score for the best model. We also added a 12000-token subcorpus on cars and other motor vehicles. We trained and release a transformer-based NER tagger for Hungarian using the annotation in the new corpus version, which provides similar performance to an identical model trained on the original version of the corpus.",
}