ner-english-fastオープンソース英文命名実体認識モデル - 4種類の実体を迅速かつ正確に認識

ホーム

Ner English Fast

flairによって開発

Flairに組み込まれた英語の高速4クラス固有表現認識モデルで、Flair埋め込みとLSTM-CRFアーキテクチャを使用し、CoNLL-03データセットで92.92のF1スコアを達成しています。

シーケンスラベリング

PyTorch

英語#高速NER #Flair埋め込み #CoNLL-03データセット

ダウンロード数 978.01k

リリース時間 : 3/2/2022

モデル概要

このモデルは英語テキスト中の固有表現認識に使用され、人物、場所、組織、その他の名称の4種類のエンティティを識別できます。

モデル特徴

高速推論

モデルは最適化されており、高速な固有表現認識を提供します

高精度

CoNLL-03データセットで92.92のF1スコアを達成

多種類認識

人物、場所、組織、その他の名称の4種類のエンティティを同時に識別可能

モデル能力

英語テキストの固有表現認識

系列ラベリング

エンティティ分類

使用事例

情報抽出

ニューステキスト分析

ニューステキストから人物、場所、組織情報を抽出

テキスト中の固有表現とそのカテゴリを正確に識別

ドキュメント処理

法律または商業文書中の固有表現を処理

文書中のキーエンティティ情報を自動的に注釈付け

🚀 Flairによる英語の固有表現抽出 (高速モデル)

これは、Flair とともに提供される英語用の高速な4クラス固有表現抽出（NER）モデルです。

F1スコア: 92,92 (修正済みCoNLL - 03)

以下の4つのタグを予測します:

タグ	意味
PER	人名
LOC	地名
ORG	組織名
MISC	その他の名前

このモデルは Flair埋め込みとLSTM - CRFに基づいています。

🚀 クイックスタート

デモ: Flairでの使用方法

必要条件: Flair (pip install flair)

from flair.data import Sentence
from flair.models import SequenceTagger

# タガーをロード
tagger = SequenceTagger.load("flair/ner-english-fast")

# サンプル文を作成
sentence = Sentence("George Washington went to Washington")

# NERタグを予測
tagger.predict(sentence)

# 文を出力
print(sentence)

# 予測されたNERスパンを出力
print('The following NER tags are found:')
# エンティティを反復処理して出力
for entity in sentence.get_spans('ner'):
    print(entity)

これにより、以下の出力が得られます:

Span [1,2]: "George Washington"   [− Labels: PER (0.9515)]
Span [5]: "Washington"   [− Labels: LOC (0.992)]

したがって、文 "George Washington went to Washington" から、エンティティ "George Washington"（人物とラベル付け）と "Washington"（場所とラベル付け）が検出されます。

📚 ドキュメント

トレーニング: このモデルをトレーニングするスクリプト

このモデルのトレーニングには、以下のFlairスクリプトが使用されました:

from flair.data import Corpus
from flair.datasets import CONLL_03
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. コーパスを取得
corpus: Corpus = CONLL_03()

# 2. 予測するタグの種類を指定
tag_type = 'ner'

# 3. コーパスからタグ辞書を作成
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 使用する各埋め込みを初期化
embedding_types = [

    # GloVe埋め込み
    WordEmbeddings('glove'),

    # 文脈依存文字列埋め込み（前方）
    FlairEmbeddings('news-forward-fast'),

    # 文脈依存文字列埋め込み（後方）
    FlairEmbeddings('news-backward-fast'),
]

# 埋め込みスタックはFlairとGloVe埋め込みから構成される
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. シーケンスタガーを初期化
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. トレーナーを初期化
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. トレーニングを実行
trainer.train('resources/taggers/ner-english',
              train_with_dev=True,
              max_epochs=150)

引用

このモデルを使用する際には、以下の論文を引用してください。

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}