ner-english-ontonotes-largeオープンソース英語命名実体認識モデル

ホーム

Ner English Ontonotes Large

flairによって開発

Flairに付属の英語の18種類の命名エンティティ認識の大規模モデルで、Ontonotesデータセットを基に訓練され、XLM - R埋め込みとFLERT技術を採用しています。

シーケンスラベリング

PyTorch

英語#18種類のエンティティ認識 #文書レベルのXLM - R埋め込み #FLERT技術

ダウンロード数 176.21k

リリース時間 : 3/2/2022

モデル概要

このモデルは英語テキスト中の命名エンティティを認識するために使用され、人物、場所、日付など18種類の異なるタイプの命名エンティティを認識することができます。

モデル特徴

多クラス認識

人物、場所、日付、通貨金額など18種類の異なるタイプの命名エンティティを認識することができます。

高性能

OntonotesデータセットでのF1スコアが90.93と、優れた性能を発揮します。

文書レベルのコンテキスト

FLERT技術を採用し、文書レベルのコンテキスト情報を利用して認識精度を向上させます。

モデル能力

命名エンティティ認識

多クラスエンティティラベリング

英語テキスト処理

使用事例

テキスト分析

ニューステキストのエンティティ認識

ニューステキスト中の人物、場所、日付などのエンティティを認識します。

各種エンティティを正確にラベリングし、後続の分析と処理を容易にします。

金融テキスト分析

金融テキスト中の通貨金額、パーセンテージなどのエンティティを認識します。

金融データの自動処理を支援します。

🚀 Flairによる英語の固有表現認識 (Ontonotes大規模モデル)

これは、Flair とともに提供される英語用の18クラスの大規模固有表現認識（NER）モデルです。

F1スコア: 90.93 (Ontonotes)

以下の18種類のタグを予測します:

タグ	意味
CARDINAL	基数値
DATE	日付値
EVENT	イベント名
FAC	建物名
GPE	地理政治的な主体
LANGUAGE	言語名
LAW	法律名
LOC	場所名
MONEY	金額名
NORP	所属関係
ORDINAL	序数値
ORG	組織名
PERCENT	パーセント値
PERSON	人名
PRODUCT	製品名
QUANTITY	数量値
TIME	時間値
WORK_OF_ART	芸術作品名

このモデルは、ドキュメントレベルのXLM - R埋め込みと FLERT に基づいています。

🚀 クイックスタート

✨ 主な機能

英語の18クラスの固有表現認識を行うことができます。
ドキュメントレベルのXLM - R埋め込みとFLERTを利用しています。

📦 インストール

このモデルを使用するには、Flair が必要です。以下のコマンドでインストールできます。

pip install flair

💻 使用例

基本的な使用法

from flair.data import Sentence
from flair.models import SequenceTagger

# タガーをロード
tagger = SequenceTagger.load("flair/ner-english-ontonotes-large")

# サンプル文を作成
sentence = Sentence("On September 1st George won 1 dollar while watching Game of Thrones.")

# NERタグを予測
tagger.predict(sentence)

# 文を表示
print(sentence)

# 予測されたNERスパンを表示
print('The following NER tags are found:')
# エンティティを反復処理して表示
for entity in sentence.get_spans('ner'):
    print(entity)

このコードは以下の出力を生成します。

Span [2,3]: "September 1st"   [− Labels: DATE (1.0)]
Span [4]: "George"   [− Labels: PERSON (1.0)]
Span [6,7]: "1 dollar"   [− Labels: MONEY (1.0)]
Span [10,11,12]: "Game of Thrones"   [− Labels: WORK_OF_ART (1.0)]

つまり、文 "On September 1st George Washington won 1 dollar while watching Game of Thrones" から、"September 1st"（日付とラベル付け）、"George"（人名とラベル付け）、"1 dollar"（金額とラベル付け）、"Game of Thrones"（芸術作品名とラベル付け）のエンティティが検出されます。

🔧 技術詳細

モデルのトレーニング

このモデルをトレーニングするために使用されたFlairのスクリプトは以下の通りです。

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. コーパスをロード（OntonotesはFlairに同梱されていないため、自分でダウンロードして列形式に再フォーマットする必要があります）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 予測したいタグは何ですか？
tag_type = 'ner'

# 3. コーパスからタグ辞書を作成
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. ドキュメントコンテキストを持つ微調整可能なトランスフォーマー埋め込みを初期化
from flair.embeddings import TransformerWordEmbeddings

embeddings = TransformerWordEmbeddings(
    model='xlm-roberta-large',
    layers="-1",
    subtoken_pooling="first",
    fine_tune=True,
    use_context=True,
)

# 5. 基本的なシーケンスタガーを初期化（CRFなし、RNNなし、再投影なし）
from flair.models import SequenceTagger

tagger = SequenceTagger(
    hidden_size=256,
    embeddings=embeddings,
    tag_dictionary=tag_dictionary,
    tag_type='ner',
    use_crf=False,
    use_rnn=False,
    reproject_embeddings=False,
)

# 6. AdamWオプティマイザーでトレーナーを初期化
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus, optimizer=torch.optim.AdamW)

# 7. XLMパラメータでトレーニングを実行（20エポック、小さい学習率）
from torch.optim.lr_scheduler import OneCycleLR

trainer.train('resources/taggers/ner-english-ontonotes-large',
              learning_rate=5.0e-6,
              mini_batch_size=4,
              mini_batch_chunk_size=1,
              max_epochs=20,
              scheduler=OneCycleLR,
              embeddings_storage_mode='none',
              weight_decay=0.,
              )

📄 ライセンス

このモデルを使用する際は、以下の論文を引用してください。

@misc{schweter2020flert,
    title={FLERT: Document-Level Features for Named Entity Recognition},
    author={Stefan Schweter and Alan Akbik},
    year={2020},
    eprint={2011.06993},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}