ner-english-ontonotesオープンソースモデル - 無料でデプロイして英語の18種類の命名実体認識を行う

ホーム

Ner English Ontonotes

flairによって開発

Flairに組み込まれている英語18クラス固有表現認識モデルで、Ontonotesデータセットで訓練され、F1スコアは89.27です。

シーケンスラベリング

PyTorch

英語#18クラス固有表現認識 #高精度NER #LSTM-CRFアーキテクチャ

ダウンロード数 175.71k

リリース時間 : 3/2/2022

モデル概要

これはLSTM-CRFアーキテクチャに基づく系列ラベリングモデルで、英語テキスト中の人物、場所、日付、通貨など18種類の固有表現タイプを識別します。

モデル特徴

18クラス固有表現認識

人物、場所、日付、通貨など18種類の異なる固有表現を識別可能

高精度

Ontonotesデータセットで89.27のF1スコアを達成

混合単語埋め込み

GloVe単語埋め込みとFlairのコンテキスト文字列埋め込みを組み合わせ

モデル能力

テキスト固有表現認識

マルチカテゴリエンティティ分類

系列ラベリング

使用事例

情報抽出

ニュースエンティティ抽出

ニューステキストから人物、場所、組織などのキー情報を抽出

テキスト中の様々な固有表現を正確に識別可能

金融文書処理

金融文書から通貨金額、日付などの情報を抽出

通貨数値や日付エンティティを正確に識別可能

🚀 Flairによる英語の固有表現認識 (Ontonotesデフォルトモデル)

これは、Flairに付属する英語用の18クラスの固有表現認識（NER）モデルです。

F1スコア: 89.27 (Ontonotes)

以下の18種類のタグを予測します。

タグ	意味
CARDINAL	基数値
DATE	日付値
EVENT	イベント名
FAC	建物名
GPE	地理政治的なエンティティ
LANGUAGE	言語名
LAW	法律名
LOC	場所名
MONEY	金額名
NORP	所属関係
ORDINAL	序数値
ORG	組織名
PERCENT	パーセント値
PERSON	人名
PRODUCT	製品名
QUANTITY	数量値
TIME	時間値
WORK_OF_ART	芸術作品名

このモデルは、Flair埋め込みとLSTM-CRFに基づいています。

🚀 クイックスタート

✨ 主な機能

英語の18クラスの固有表現認識を行うことができます。
Flairライブラリと連携して使用できます。

📦 インストール

このモデルを使用するには、Flair が必要です。以下のコマンドでインストールできます。

pip install flair

💻 使用例

基本的な使用法

from flair.data import Sentence
from flair.models import SequenceTagger

# タガーをロード
tagger = SequenceTagger.load("flair/ner-english-ontonotes")

# サンプル文を作成
sentence = Sentence("On September 1st George Washington won 1 dollar.")

# NERタグを予測
tagger.predict(sentence)

# 文を表示
print(sentence)

# 予測されたNERスパンを表示
print('The following NER tags are found:')
# エンティティを反復処理して表示
for entity in sentence.get_spans('ner'):
    print(entity)

このコードは以下の出力を生成します。

Span [2,3]: "September 1st"   [− Labels: DATE (0.8824)]
Span [4,5]: "George Washington"   [− Labels: PERSON (0.9604)]
Span [7,8]: "1 dollar"   [− Labels: MONEY (0.9837)]

つまり、文 "On September 1st George Washington won 1 dollar." から、"September 1st"（日付としてラベル付け）、"George Washington"（人名としてラベル付け）、"1 dollar"（金額としてラベル付け）のエンティティが検出されます。

🔧 技術詳細

このモデルの学習には以下のFlairスクリプトが使用されています。

from flair.data import Corpus
from flair.datasets import ColumnCorpus
from flair.embeddings import WordEmbeddings, StackedEmbeddings, FlairEmbeddings

# 1. コーパスをロード（OntonotesはFlairに付属していないため、自分でダウンロードして列形式に変換する必要があります）
corpus: Corpus = ColumnCorpus(
                "resources/tasks/onto-ner",
                column_format={0: "text", 1: "pos", 2: "upos", 3: "ner"},
                tag_to_bioes="ner",
            )

# 2. 予測するタグを指定
tag_type = 'ner'

# 3. コーパスからタグ辞書を作成
tag_dictionary = corpus.make_tag_dictionary(tag_type=tag_type)

# 4. 使用する各埋め込みを初期化
embedding_types = [

    # GloVe埋め込み
    WordEmbeddings('en-crawl'),

    # 文脈依存の文字列埋め込み（順方向）
    FlairEmbeddings('news-forward'),

    # 文脈依存の文字列埋め込み（逆方向）
    FlairEmbeddings('news-backward'),
]

# 埋め込みスタックはFlairとGloVeの埋め込みで構成
embeddings = StackedEmbeddings(embeddings=embedding_types)

# 5. シーケンスタガーを初期化
from flair.models import SequenceTagger

tagger = SequenceTagger(hidden_size=256,
                        embeddings=embeddings,
                        tag_dictionary=tag_dictionary,
                        tag_type=tag_type)

# 6. トレーナーを初期化
from flair.trainers import ModelTrainer

trainer = ModelTrainer(tagger, corpus)

# 7. 学習を実行
trainer.train('resources/taggers/ner-english-ontonotes',
              train_with_dev=True,
              max_epochs=150)

📄 ライセンス

このモデルを使用する際には、以下の論文を引用してください。

@inproceedings{akbik2018coling,
  title={Contextual String Embeddings for Sequence Labeling},
  author={Akbik, Alan and Blythe, Duncan and Vollgraf, Roland},
  booktitle = {{COLING} 2018, 27th International Conference on Computational Linguistics},
  pages     = {1638--1649},
  year      = {2018}
}