ner-dutch-largeオープンソースオランダ語命名エンティティ認識モデル - 無料で4種類のエンティティを正確に認識する

ホーム

Ner Dutch Large

flairによって開発

Flairに付属のオランダ語の4種類の命名エンティティ認識大規模モデルで、XLM - R埋め込みとFLERT技術に基づいており、CoNLL - 03オランダ語データセットでF1スコアが95.25に達します。

シーケンスラベリング

PyTorch

その他#オランダ語NER #文書レベルXLM - R #FLERT技術

ダウンロード数 147.32k

リリース時間 : 3/2/2022

モデル概要

このモデルはオランダ語テキストの命名エンティティ認識に使用され、人物、場所、組織、その他の名前の4種類のエンティティを認識できます。

モデル特徴

文書レベルのコンテキスト理解

FLERT技術を採用し、文書レベルのコンテキスト情報を利用してエンティティ認識の精度を向上させます。

多クラスエンティティ認識

人物(PER)、場所(LOC)、組織(ORG)、その他(MISC)の4種類のエンティティを同時に認識できます。

高性能

標準のCoNLL - 03オランダ語データセットで95.25のF1スコアを達成します。

モデル能力

オランダ語テキスト処理

命名エンティティ認識

シーケンスラベリング

使用事例

テキスト分析

ニューステキストのエンティティ抽出

オランダ語のニュースから自動的に人物、場所、組織名を認識します。

各種の命名エンティティを正確にラベリングします。

文書情報抽出

法律または商業文書のエンティティ情報を処理します。

文書分類と情報検索を支援します。

🚀 Flairによるオランダ語の固有表現抽出 (大規模モデル)

これは、Flair で提供されるオランダ語用の大規模な4クラス固有表現抽出（NER）モデルです。

F1スコア: 95,25 (CoNLL-03オランダ語)

以下の4つのタグを予測します:

タグ	意味
PER	人名
LOC	地名
ORG	組織名
MISC	その他の名前

このモデルは、文書レベルのXLM-R埋め込みと FLERT に基づいています。

🚀 クイックスタート

必要条件

Flair (pip install flair)

コード例

from flair.data import Sentence
from flair.models import SequenceTagger

# タガーをロード
tagger = SequenceTagger.load("flair/ner-dutch-large")

# サンプル文を作成
sentence = Sentence("George Washington ging naar Washington")

# NERタグを予測
tagger.predict(sentence)

# 文を表示
print(sentence)

# 予測されたNERスパンを表示
print('The following NER tags are found:')
# エンティティを反復処理して表示
for entity in sentence.get_spans('ner'):
    print(entity)

このコードは以下の出力を生成します:

Span [1,2]: "George Washington"   [− Labels: PER (1.0)]
Span [5]: "Washington"   [− Labels: LOC (1.0)]

つまり、文 "George Washington ging naar Washington" から、 "George Washington"（人物とラベル付け）と "Washington"（場所とラベル付け）のエンティティが検出されます。

💻 使用例

基本的な使用法

from flair.data import Sentence
from flair.models import SequenceTagger

# タガーをロード
tagger = SequenceTagger.load("flair/ner-dutch-large")

# サンプル文を作成
sentence = Sentence("George Washington ging naar Washington")

# NERタグを予測
tagger.predict(sentence)

# 文を表示
print(sentence)

# 予測されたNERスパンを表示
print('The following NER tags are found:')
# エンティティを反復処理して表示
for entity in sentence.get_spans('ner'):
    print(entity)

🔧 技術詳細

モデルのトレーニング

このモデルをトレーニングするために使用されたFlairのスクリプトは以下の通りです:

import torch

# 1. コーパスを取得
from flair.datasets import CONLL_03_DUTCH

corpus = CONLL_03_DUTCH()

# 2. 予測するタグを指定
tag_type = 'ner'

# 3. コーパスからタグ辞書を作成
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 文書コンテキストを持つ微調整可能なTransformer埋め込みを初期化
from flair.embeddings import TransformerWordEmbeddings

embeddings = TransformerWordEmbeddings(
    model='xlm-roberta-large',
    layers="-1",
    subtoken_pooling="first",
    fine_tune=True,
    use_context=True,
)

# 5. 基本的なシーケンスタガーを初期化（CRF、RNN、再投影なし）
from flair.models import SequenceTagger

tagger = SequenceTagger(
    hidden_size=256,
    embeddings=embeddings,
    tag_dictionary=tag_dictionary,
    tag_type='ner',
    use_crf=False,
    use_rnn=False,
    reproject_embeddings=False,
)

# 6. AdamWオプティマイザでトレーナーを初期化
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus, optimizer=torch.optim.AdamW)

# 7. XLMパラメータでトレーニングを実行（20エポック、小さい学習率）
from torch.optim.lr_scheduler import OneCycleLR

trainer.train('resources/taggers/ner-dutch-large',
              learning_rate=5.0e-6,
              mini_batch_size=4,
              mini_batch_chunk_size=1,
              max_epochs=20,
              scheduler=OneCycleLR,
              embeddings_storage_mode='none',
              weight_decay=0.,
              )

📄 ライセンス

このモデルを使用する際は、以下の論文を引用してください。

@misc{schweter2020flert,
    title={FLERT: Document-Level Features for Named Entity Recognition},
    author={Stefan Schweter and Alan Akbik},
    year={2020},
    eprint={2011.06993},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}