🚀 ハンガリー語の命名エンティティ認識モデル(OntoNotes5 + 追加のエンティティタイプ)
このモデルは、ハンガリー語の命名エンティティ認識に使用されるモデルで、事前学習モデルを微調整して作成されています。複数のエンティティタイプを認識でき、関連するコーパスで良好な性能を発揮します。
🚀 クイックスタート
- 事前学習モデル:SZTAKI - HLT/hubert - base - cc
- NerKor + CARS - ONPPコーパスで微調整
🔧 技術詳細
制約条件
学習データ
基礎コーパス [NerKor + CARS - OntoNotes++](https://github.com/ppke - nlpg/NYTK - NerKor - Cars - OntoNotesPP) は [NYTK - NerKor](https://github.com/nytud/NYTK - NerKor) に由来します。これはハンガリー語のゴールドスタンダードの命名エンティティアノテーションコーパスで、約100万個のタグ付きデータを含んでいます。さらに、hvg.hu のニュースアーカイブから自動車(自動車、バス、オートバイ)に関する1.2万個のタグ付きテキスト(単文)が追加されています。
NYTK - NerKor のアノテーションはCoNLL2002アノテーション標準に従っており、4種類の命名エンティティカテゴリ(PER
、LOC
、MISC
、ORG
)のみがあります。一方、このバージョンのコーパスには30種類以上のエンティティタイプがあり、[OntoNotes 5.0] 英語の命名エンティティ認識アノテーションで使用されるすべてのエンティティタイプが含まれています。新しいアノテーションでは、LOC
と MISC
のエンティティタイプのサブタイプが詳細に説明され、非名前(日付や時間、数量、言語、国籍や宗教または政治団体)もアノテーションされています。さらに、アノテーションではOntoNotes 5アノテーションに存在しない他のエンティティサブタイプも細分化されています(下記参照)。
OntoNotes 5.0アノテーションに由来するラベル
名前は以下のタイプセットに従ってアノテーションされます:
属性 |
詳細 |
PER |
= 人物(架空の人物を含む) |
FAC |
= 施設(建物、空港、高速道路、橋など) |
ORG |
= 組織(会社、機関など) |
GPE |
地理政治的エンティティ:国、都市、州 |
LOC |
= 場所(地理政治的でない場所、例えば山脈、水域) |
PROD |
= 製品(車両、武器、食品など、サービスを除く) |
EVENT |
命名されたハリケーン、戦い、戦争、スポーツイベントなど |
WORK_OF_ART |
書籍、歌曲などのタイトル |
LAW |
法律となった命名文書 |
以下も同様に名前としてアノテーションされます:
属性 |
詳細 |
NORP |
国籍または宗教または政治団体 |
LANGUAGE |
命名された言語 |
DATE |
絶対または相対的な日付または期間 |
TIME |
1日未満の時間 |
PERCENT |
パーセント(「%」を含む) |
MONEY |
通貨価値(単位を含む) |
QUANTITY |
測定値(重量や距離など) |
ORDINAL |
「第一」、「第二」など |
CARDINAL |
他のタイプに属さない数字 |
追加ラベル(OntoNotes 5にはない)
タイプ MISC
の名前の他のサブタイプ
属性 |
詳細 |
AWARD |
賞や奨励金 |
CAR |
自動車や他の自動車 |
MEDIA |
メディア機関、テレビチャンネル、ニュースポータル |
SMEDIA |
ソーシャルメディアプラットフォーム |
PROJ |
プロジェクトやイニシアチブ |
MISC |
未解決の MISC エンティティサブタイプ |
MISC - ORG |
組織に似た未解決の MISC エンティティサブタイプ |
他の非名前エンティティ
属性 |
詳細 |
DUR |
期間 |
AGE |
年齢 |
ID |
識別子 |
📄 ライセンス
このプロジェクトはGPLライセンスを採用しています。
引用情報
このモデルを使用する場合は、以下の文献を引用してください:
@inproceedings{novak-novak-2022-nerkor,
title = "{N}er{K}or+{C}ars-{O}nto{N}otes++",
author = "Nov{\'a}k, Attila and
Nov{\'a}k, Borb{\'a}la",
booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
month = jun,
year = "2022",
address = "Marseille, France",
publisher = "European Language Resources Association",
url = "https://aclanthology.org/2022.lrec-1.203",
pages = "1907--1916",
abstract = "In this paper, we present an upgraded version of the Hungarian NYTK-NerKor named entity corpus, which contains about twice as many annotated spans and 7 times as many distinct entity types as the original version. We used an extended version of the OntoNotes 5 annotation scheme including time and numerical expressions. NerKor is the newest and biggest NER corpus for Hungarian containing diverse domains. We applied cross-lingual transfer of NER models trained for other languages based on multilingual contextual language models to preannotate the corpus. We corrected the annotation semi-automatically and manually. Zero-shot preannotation was very effective with about 0.82 F1 score for the best model. We also added a 12000-token subcorpus on cars and other motor vehicles. We trained and release a transformer-based NER tagger for Hungarian using the annotation in the new corpus version, which provides similar performance to an identical model trained on the original version of the corpus.",
}