nerkor-cars-onpp-hubert開源命名實體識別模型 - 支持30多種類型匈牙利語實體識別

首頁

Nerkor Cars Onpp Hubert

由novakat開發

基於SZTAKI-HLT/hubert-base-cc預訓練模型，在NerKor+CARS-ONPP語料庫上微調的匈牙利語命名實體識別模型，支持30多種實體類型。

序列標註

Transformers

其他#匈牙利語NER #多實體類型擴展 #新聞領域優化

下載量 6,780

發布時間 : 3/2/2022

模型概述

該模型是一個匈牙利語命名實體識別(NER)模型，能夠識別包括人物、地點、組織、時間、數量等多種實體類型，適用於匈牙利語文本的實體標註任務。

模型特點

廣泛的實體類型支持

支持30多種實體類型，包括OntoNotes 5.0標準類型和新增的匈牙利語特定類型。

大規模訓練數據

基於NerKor+CARS-ONPP語料庫訓練，包含約100萬標記的匈牙利語黃金標準標註數據。

專業領域擴展

新增了1.2萬標記的機動車輛領域文本，增強特定領域的識別能力。

模型能力

識別匈牙利語文本中的命名實體

分類30多種實體類型

處理新聞領域文本

識別機動車輛相關實體

使用案例

信息提取

新聞文本分析

從匈牙利語新聞文章中提取人物、組織、地點等關鍵信息

可用於構建知識圖譜或事件分析

汽車領域實體識別

識別汽車相關文章中的車輛型號、品牌等特定實體

支持汽車行業市場分析

文本標註

語料庫構建

為匈牙利語NLP研究提供預標註數據

加速研究過程

🚀 匈牙利命名實體識別模型（OntoNotes5 + 更多實體類型）

本模型是用於匈牙利語命名實體識別的模型，基於預訓練模型微調而來，能識別多種實體類型，在相關語料上有良好表現。

🚀 快速開始

預訓練模型：SZTAKI - HLT/hubert - base - cc
在NerKor + CARS - ONPP語料庫上進行微調

🔧 技術細節

限制條件

最大序列長度 = 448

訓練數據

基礎語料 [NerKor + CARS - OntoNotes++](https://github.com/ppke - nlpg/NYTK - NerKor - Cars - OntoNotesPP) 源自 [NYTK - NerKor](https://github.com/nytud/NYTK - NerKor)，這是一個匈牙利語的黃金標準命名實體標註語料庫，包含約100萬個標記。它還額外添加了來自 hvg.hu 新聞存檔中關於機動車（汽車、公交車、摩托車）的1.2萬個標記的文本（單個句子）。

NYTK - NerKor 的標註遵循CoNLL2002標註標準，只有四種命名實體類別（PER、LOC、MISC、ORG），而此版本的語料庫有超過30種實體類型，包括 [OntoNotes 5.0] 英語命名實體識別標註中使用的所有實體類型。新的標註詳細說明了 LOC 和 MISC 實體類型的子類型，並對非名稱（如時間和日期、數量、語言和國籍或宗教或政治團體）進行了標註。此外，標註還細化了OntoNotes 5標註中不存在的其他實體子類型（見下文）。

源自OntoNotes 5.0標註的標籤

名稱根據以下類型集進行標註：

屬性	詳情
`PER`	= 人物，包括虛構人物
`FAC`	= 設施，如建築物、機場、高速公路、橋樑等
`ORG`	= 組織，如公司、機構等
`GPE`	地緣政治實體：國家、城市、州
`LOC`	= 位置，非地緣政治位置，如山脈、水域
`PROD`	= 產品，如車輛、武器、食品等（不包括服務）
`EVENT`	命名的颶風、戰役、戰爭、體育賽事等
`WORK_OF_ART`	書籍、歌曲等的標題
`LAW`	成為法律的命名文件

以下也以類似名稱的方式進行標註：

屬性	詳情
`NORP`	國籍或宗教或政治團體
`LANGUAGE`	任何命名的語言
`DATE`	絕對或相對日期或時期
`TIME`	小於一天的時間
`PERCENT`	百分比（包括 "%"）
`MONEY`	貨幣價值，包括單位
`QUANTITY`	測量值，如重量或距離
`ORDINAL`	“第一”、“第二”等
`CARDINAL`	不屬於其他類型的數字

額外標籤（OntoNotes 5中沒有）

類型為 `MISC` 的名稱的其他子類型

屬性	詳情
`AWARD`	獎項和獎品
`CAR`	汽車和其他機動車
`MEDIA`	媒體機構、電視頻道、新聞門戶
`SMEDIA`	社交媒體平臺
`PROJ`	項目和倡議
`MISC`	未解決的 `MISC` 實體子類型
`MISC - ORG`	類似組織的未解決的 `MISC` 實體子類型

其他非名稱實體

屬性	詳情
`DUR`	持續時間
`AGE`	年齡
`ID`	標識符

📄 許可證

本項目採用GPL許可證。

引用說明

如果您使用此模型，請引用以下文獻：

@inproceedings{novak-novak-2022-nerkor,
    title = "{N}er{K}or+{C}ars-{O}nto{N}otes++",
    author = "Nov{\'a}k, Attila  and
      Nov{\'a}k, Borb{\'a}la",
    booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
    month = jun,
    year = "2022",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://aclanthology.org/2022.lrec-1.203",
    pages = "1907--1916",
    abstract = "In this paper, we present an upgraded version of the Hungarian NYTK-NerKor named entity corpus, which contains about twice as many annotated spans and 7 times as many distinct entity types as the original version. We used an extended version of the OntoNotes 5 annotation scheme including time and numerical expressions. NerKor is the newest and biggest NER corpus for Hungarian containing diverse domains. We applied cross-lingual transfer of NER models trained for other languages based on multilingual contextual language models to preannotate the corpus. We corrected the annotation semi-automatically and manually. Zero-shot preannotation was very effective with about 0.82 F1 score for the best model. We also added a 12000-token subcorpus on cars and other motor vehicles. We trained and release a transformer-based NER tagger for Hungarian using the annotation in the new corpus version, which provides similar performance to an identical model trained on the original version of the corpus.",
}