bert-base-NERオープンソースの命名エンティティ認識モデル - 無料でデプロイ可能、4種類のエンティティを認識できます

ホーム

Bert Base NER

dslimによって開発

BERTを微調整した命名エンティティ識別モデルで、4種類のエンティティ（場所(LOC)、組織(ORG)、人名(PER)、その他(MISC)）を識別できます。

シーケンスラベリング英語オープンソースライセンス:MIT #高精度NER #ニュースコーパスの最適化 #4種類のエンティティ識別

ダウンロード数 1.8M

リリース時間 : 3/2/2022

モデル概要

このモデルは、標準英語版のCoNLL - 2003命名エンティティ識別データセットで微調整されたbert - base - casedバージョンで、NERタスクで業界トップレベルの性能を達成しています。

モデル特徴

高精度識別

CoNLL - 2003テストセットでf1スコア91.3の業界トップレベルの性能を達成します。

複数エンティティタイプの識別

4種類のエンティティ（場所(LOC)、組織(ORG)、人名(PER)、その他(MISC)）を識別できます。

軽量版が選択可能

より軽量で高速なDistilBERTの簡易版(distilbert - NER)を提供します。

モデル能力

命名エンティティ識別

テキスト分析

情報抽出

使用事例

テキスト処理

ニューステキスト分析

ニュース記事から人名、組織名、場所情報を抽出します。

ニュース内の重要なエンティティ情報を正確に識別できます。

文書自動化処理

商業文書内の会社名と地理位置を自動識別します。

文書処理の効率を向上させます。

🚀 bert-base-NER

bert-base-NER は、微調整されたBERTモデルで、固有表現抽出（Named Entity Recognition, NER）に直接使用でき、NERタスクで業界トップレベルの性能を達成しています。このモデルは、位置（LOC）、組織（ORG）、人物（PER）、その他（MISC）の4種類のエンティティを識別できます。

🚀 クイックスタート

Transformersの pipeline を使用して、このモデルをNERタスクに利用することができます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-base-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-base-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

✨ 主な機能

微調整BERTモデル：BERTモデルをベースに微調整されており、固有表現抽出タスクで優れた性能を発揮します。
複数エンティティタイプの識別：位置、組織、人物、その他の4種類のエンティティを識別できます。
複数バージョンの選択肢：このモデルの他に、distilbert-NER、bert-large-NER などの異なるバージョンが利用可能です。

利用可能なNERモデル

モデル名	説明	パラメータ数
distilbert-NER (NEW!)	微調整されたDistilBERT - より小さく、高速で、軽量なBERTのバージョン	66M
bert-large-NER	微調整されたbert-large-cased - より大きなモデルで、性能がわずかに向上します	340M
bert-base-NER-(uncased)	微調整されたbert-baseで、大文字小文字を区別するバージョンと区別しないバージョンがあります	110M

📚 ドキュメント

想定される用途と制限事項

制限事項とバイアス

このモデルは、特定の期間の固有表現がアノテーションされたニュース記事のトレーニングデータセットに制限されています。したがって、異なるドメインのすべてのユースケースにうまく汎化できない可能性があります。また、このモデルは時々サブワードをエンティティとして識別することがあり、これらのケースを処理するために結果の後処理が必要になる場合があります。

トレーニングデータ

このモデルは、標準の CoNLL-2003固有表現抽出データセットの英語版で微調整されています。

トレーニングデータセットでは、エンティティの開始と継続を区別しているため、連続する同じタイプのエンティティがある場合、モデルは2番目のエンティティの開始位置を出力できます。データセット内の各トークンは、以下のカテゴリのいずれかに分類されます。

略称	説明
O	固有表現以外
B-MISC	別の「その他」エンティティの直後に続く「その他」エンティティの開始
I-MISC	その他のエンティティ
B-PER	別の人物名の直後に続く人物名の開始
I-PER	人物名
B-ORG	別の組織の直後に続く組織の開始
I-ORG	組織
B-LOC	別の位置の直後に続く位置の開始
I-LOC	位置

CoNLL - 2003英語データセットの統計情報

このデータセットは、ロイターのニュース記事からなるロイターコーパスに由来しています。このデータセットの作成方法の詳細は、CoNLL - 2003の論文で確認できます。

各エンティティタイプのトレーニング例の数

データセット	位置（LOC）	その他（MISC）	組織（ORG）	人物（PER）
トレーニングセット	7140	3438	6321	6600
検証セット	1837	922	1341	1842
テストセット	1668	702	1661	1617

各データセットの記事/文/トークンの数

データセット	記事数	文数	トークン数
トレーニングセット	946	14,987	203,621
検証セット	216	3,466	51,362
テストセット	231	3,684	46,435

トレーニングプロセス

このモデルは、単一のNVIDIA V100 GPUでトレーニングされ、元のBERT論文で推奨されているハイパーパラメータが使用されています。この論文では、CoNLL - 2003 NERタスクでモデルがトレーニングおよび評価されています。

評価結果

指標	検証セット	テストセット
F1	95.1	91.3
精度	95.0	90.7
再現率	95.3	91.9

テスト指標は、ドキュメントのコンテキストをエンコードし、CRFを実験した公式のGoogle BERTの結果よりもわずかに低くなっています。元の結果を再現するための詳細な情報は、こちらを参照してください。

BibTeX引用と引用情報

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}