🚀 匈牙利命名實體識別模型(OntoNotes5 + 更多實體類型)
本模型是用於匈牙利語命名實體識別的模型,基於預訓練模型微調而來,能識別多種實體類型,在相關語料上有良好表現。
🚀 快速開始
- 預訓練模型:SZTAKI - HLT/hubert - base - cc
- 在NerKor + CARS - ONPP語料庫上進行微調
🔧 技術細節
限制條件
訓練數據
基礎語料 [NerKor + CARS - OntoNotes++](https://github.com/ppke - nlpg/NYTK - NerKor - Cars - OntoNotesPP) 源自 [NYTK - NerKor](https://github.com/nytud/NYTK - NerKor),這是一個匈牙利語的黃金標準命名實體標註語料庫,包含約100萬個標記。它還額外添加了來自 hvg.hu 新聞存檔中關於機動車(汽車、公交車、摩托車)的1.2萬個標記的文本(單個句子)。
NYTK - NerKor 的標註遵循CoNLL2002標註標準,只有四種命名實體類別(PER
、LOC
、MISC
、ORG
),而此版本的語料庫有超過30種實體類型,包括 [OntoNotes 5.0] 英語命名實體識別標註中使用的所有實體類型。新的標註詳細說明了 LOC
和 MISC
實體類型的子類型,並對非名稱(如時間和日期、數量、語言和國籍或宗教或政治團體)進行了標註。此外,標註還細化了OntoNotes 5標註中不存在的其他實體子類型(見下文)。
源自OntoNotes 5.0標註的標籤
名稱根據以下類型集進行標註:
屬性 |
詳情 |
PER |
= 人物,包括虛構人物 |
FAC |
= 設施,如建築物、機場、高速公路、橋樑等 |
ORG |
= 組織,如公司、機構等 |
GPE |
地緣政治實體:國家、城市、州 |
LOC |
= 位置,非地緣政治位置,如山脈、水域 |
PROD |
= 產品,如車輛、武器、食品等(不包括服務) |
EVENT |
命名的颶風、戰役、戰爭、體育賽事等 |
WORK_OF_ART |
書籍、歌曲等的標題 |
LAW |
成為法律的命名文件 |
以下也以類似名稱的方式進行標註:
屬性 |
詳情 |
NORP |
國籍或宗教或政治團體 |
LANGUAGE |
任何命名的語言 |
DATE |
絕對或相對日期或時期 |
TIME |
小於一天的時間 |
PERCENT |
百分比(包括 "%") |
MONEY |
貨幣價值,包括單位 |
QUANTITY |
測量值,如重量或距離 |
ORDINAL |
“第一”、“第二”等 |
CARDINAL |
不屬於其他類型的數字 |
額外標籤(OntoNotes 5中沒有)
類型為 MISC
的名稱的其他子類型
屬性 |
詳情 |
AWARD |
獎項和獎品 |
CAR |
汽車和其他機動車 |
MEDIA |
媒體機構、電視頻道、新聞門戶 |
SMEDIA |
社交媒體平臺 |
PROJ |
項目和倡議 |
MISC |
未解決的 MISC 實體子類型 |
MISC - ORG |
類似組織的未解決的 MISC 實體子類型 |
其他非名稱實體
屬性 |
詳情 |
DUR |
持續時間 |
AGE |
年齡 |
ID |
標識符 |
📄 許可證
本項目採用GPL許可證。
引用說明
如果您使用此模型,請引用以下文獻:
@inproceedings{novak-novak-2022-nerkor,
title = "{N}er{K}or+{C}ars-{O}nto{N}otes++",
author = "Nov{\'a}k, Attila and
Nov{\'a}k, Borb{\'a}la",
booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
month = jun,
year = "2022",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2022.lrec-1.203",
pages = "1907--1916",
abstract = "In this paper, we present an upgraded version of the Hungarian NYTK-NerKor named entity corpus, which contains about twice as many annotated spans and 7 times as many distinct entity types as the original version. We used an extended version of the OntoNotes 5 annotation scheme including time and numerical expressions. NerKor is the newest and biggest NER corpus for Hungarian containing diverse domains. We applied cross-lingual transfer of NER models trained for other languages based on multilingual contextual language models to preannotate the corpus. We corrected the annotation semi-automatically and manually. Zero-shot preannotation was very effective with about 0.82 F1 score for the best model. We also added a 12000-token subcorpus on cars and other motor vehicles. We trained and release a transformer-based NER tagger for Hungarian using the annotation in the new corpus version, which provides similar performance to an identical model trained on the original version of the corpus.",
}