bert-base-NERオープンソース命名エンティティ認識モデル - 場所、組織、人名など4種類のエンティティを無料で認識

ホーム

Bert Base NER

optimumによって開発

BERT-baseをベースとした固有表現抽出モデルで、場所、組織、人名などの4種類のエンティティを識別可能

シーケンスラベリング

Transformers

英語オープンソースライセンス:MIT #固有表現抽出 #CoNLL2003ファインチューニング #BERTアーキテクチャ

ダウンロード数 69

リリース時間 : 3/24/2022

モデル概要

このモデルはBERT-baseのファインチューン版で、英語の固有表現抽出タスク専用に設計されており、CoNLL-2003データセットで業界トップレベルの性能を達成

モデル特徴

高精度なエンティティ認識

CoNLL-2003テストセットで91.3のF1スコアを達成

マルチカテゴリ認識

LOC/ORG/PER/MISCの4種類のエンティティ認識をサポート

サブワードトークン処理

BERTアーキテクチャに基づくサブワード分割処理

モデル能力

テキスト中の固有表現を識別

エンティティタイプの区別（場所/組織/人名/その他）

不完全な単語フラグメントの処理

使用事例

テキスト分析

ニュースエンティティ抽出

ニューステキストから自動的に組織名や人物名を識別

テストセット精度90.7%

地理情報注釈

テキスト中の地理的位置情報を識別

場所認識F1スコア91.9%

🚀 bert-base-NERのONNX変換

bert-base-NER をONNX形式に変換したモデルで、固有表現認識（NER）タスクに最適化されています。

🚀 クイックスタート

このモデルは、固有表現認識（NER）タスクにすぐに使用できるように微調整されたBERTモデルです。

✨ 主な機能

高性能：NERタスクにおいて最先端の性能を達成します。
多様なエンティティ認識：場所（LOC）、組織（ORG）、人物（PER）、その他（MISC）の4種類のエンティティを認識できます。

📚 ドキュメント

モデルの説明

bert-base-NER は、固有表現認識（Named Entity Recognition）にすぐに使用できるように微調整されたBERTモデルで、NERタスクにおいて最先端の性能を達成しています。このモデルは、場所（LOC）、組織（ORG）、人物（PER）、その他（MISC）の4種類のエンティティを認識するように訓練されています。

具体的には、このモデルは bert-base-cased モデルを標準の英語版 CoNLL-2003 固有表現認識データセットで微調整したものです。

同じデータセットで微調整されたより大きなBERT-largeモデルを使用したい場合は、bert-large-NER バージョンも利用可能です。

想定される用途と制限

使い方

Transformersの pipeline を使用して、このモデルをNERに使用することができます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-base-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-base-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

制限とバイアス

このモデルは、特定の期間のエンティティがアノテーションされたニュース記事の訓練データセットに制限されています。このため、異なるドメインのすべてのユースケースにうまく一般化できない可能性があります。さらに、モデルは時々サブワードトークンをエンティティとしてタグ付けすることがあり、そのようなケースを処理するために結果の後処理が必要になる場合があります。

訓練データ

このモデルは、標準の英語版 CoNLL-2003 固有表現認識データセットで微調整されています。

訓練データセットは、エンティティの開始と継続を区別するため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットでは、各トークンは以下のクラスのいずれかに分類されます。

属性	详情
モデルタイプ	微調整されたBERTモデル
訓練データ	英語版のCoNLL - 2003固有表現認識データセット

CoNLL-2003英語データセットの統計情報

このデータセットは、ロイターのニュース記事からなるロイターコーパスから派生しています。このデータセットの作成方法の詳細は、CoNLL - 2003の論文で読むことができます。

エンティティタイプごとの訓練例の数

データセット	LOC	MISC	ORG	PER
訓練データ	7140	3438	6321	6600
検証データ	1837	922	1341	1842
テストデータ	1668	702	1661	1617

データセットごとの記事/文/トークンの数

データセット	記事数	文数	トークン数
訓練データ	946	14,987	203,621
検証データ	216	3,466	51,362
テストデータ	231	3,684	46,435

訓練手順

このモデルは、単一のNVIDIA V100 GPU上で、元のBERT論文から推奨されるハイパーパラメータを使用して訓練されました。この論文では、CoNLL - 2003 NERタスクでモデルの訓練と評価が行われています。

評価結果

指標	検証データ	テストデータ
F1スコア	95.1	91.3
精度	95.0	90.7
再現率	95.3	91.9

テストメトリクスは、文書コンテキストをエンコードし、CRFを実験した公式のGoogle BERTの結果よりも少し低くなっています。元の結果を再現する方法の詳細はこちらを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}