bert-large-NERオープンソースの命名実体認識モデル - 無料でデプロイして高度な情報抽出性能を実現

ホーム

Bert Large NER

dslimによって開発

BERT-largeを微調整した命名エンティティ認識モデルで、CoNLL-2003データセットで最先端の性能を実現

シーケンスラベリング英語オープンソースライセンス:MIT #命名エンティティ認識 #高精度NER #BERT微調整

ダウンロード数 360.98k

リリース時間 : 3/2/2022

モデル概要

このモデルは、テキスト内の命名エンティティ（場所(LOC)、組織(ORG)、人名(PER)、その他のカテゴリ(MISC)）を識別するために特別に設計されています。

モデル特徴

最先端の性能

CoNLL-2003テストセットでF1スコア91.7の高い性能を達成

BERT-largeベース

bert-large-casedをベースモデルとして使用し、より強力な表現能力を持つ

4種類のエンティティ認識

場所、組織、人名、その他のカテゴリの4種類のエンティティタイプを正確に識別できる

モデル能力

命名エンティティ認識

テキストタグ分類

自然言語処理

使用事例

情報抽出

ニュース記事のエンティティ抽出

ニュース記事から人名、組織名、場所名などの重要な情報を抽出

テキスト内の重要なエンティティを正確に識別

文書分析

商業文書や法律文書内の命名エンティティを分析

文書内の重要な情報を迅速に特定するのに役立つ

🚀 bert-large-NER

bert-large-NER は、微調整された BERT モデルで、直接 命名エンティティ認識（Named Entity Recognition） に使用でき、このタスクで 業界トップレベルの性能 を達成しています。このモデルは、地点（LOC）、組織（ORG）、人物（PER）、その他（MISC）の4種類のエンティティを識別するように訓練されています。

🚀 クイックスタート

もし私のオープンソースモデルがあなたに役立つと感じたら、私が小さな実用的なAIモデルを構築するのをサポートすることを検討してください（これは私の医学部の学費の支払いや、両親への経済的支援にもつながります）。ありがとう！

✨ 主な機能

微調整モデル：bert-large-cased モデルをベースに、英語の標準 CoNLL - 2003 命名エンティティ認識データセットで微調整されています。
多エンティティ認識：地点、組織、人物、その他の4種類の一般的なエンティティを識別できます。
高性能：CoNLL - 2003 データセットのテストセットで、正解率が 0.9031688753722759、F1値が 0.9196968510445761 を達成しています。

💻 使用例

基本的な使用法

Transformers の pipeline を使用して、命名エンティティ認識を行うことができます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

📚 ドキュメント

想定される用途と制限

使い方

上記のコード例のように、Transformers の pipeline を利用して命名エンティティ認識を行うことができます。

制限とバイアス

このモデルは、訓練データセットの制限を受けます。訓練データは特定の期間のエンティティがラベル付けされたニュース記事です。このため、異なる分野のすべてのユースケースでの汎化能力が低い可能性があります。また、モデルは時々サブワードをエンティティとして識別することがあるため、これらのケースを処理するために結果の後処理が必要になる場合があります。

訓練データ

このモデルは、英語の標準 CoNLL - 2003 命名エンティティ認識データセットで微調整されています。

訓練データセットでは、エンティティの開始と継続を区別しています。これにより、連続する同じタイプのエンティティがある場合、モデルは2番目のエンティティの開始位置を出力できます。データセット内の各トークンは、以下のカテゴリのいずれかに分類されます。

略称	説明
O	命名エンティティ以外
B - MIS	別の「その他」エンティティの直後に続く「その他」エンティティの開始
I - MIS	その他のエンティティ
B - PER	別の人物名の直後に続く人物名の開始
I - PER	人物名
B - ORG	別の組織の直後に続く組織の開始
I - ORG	組織
B - LOC	別の場所の直後に続く場所の開始
I - LOC	場所

CoNLL - 2003 英語データセットの統計情報

このデータセットは路透社のコーパスに由来し、路透社のニュース記事で構成されています。このデータセットの作成方法の詳細は、CoNLL - 2003 の論文で確認できます。

各エンティティタイプの訓練例の数 | データセット | LOC | MISC | ORG | PER | |------|------|------|------|------| | Train | 7140 | 3438 | 6321 | 6600 | | Dev | 1837 | 922 | 1341 | 1842 | | Test | 1668 | 702 | 1661 | 1617 |
各データセットの記事/文/トークンの数 | データセット | 記事 | 文 | トークン | |------|------|------|------| | Train | 946 | 14,987 | 203,621 | | Dev | 216 | 3,466 | 51,362 | | Test | 231 | 3,684 | 46,435 |

訓練過程

このモデルは、単一のNVIDIA V100 GPUで訓練され、元のBERT論文で推奨されているハイパーパラメータを使用しています。この論文では、CoNLL - 2003 命名エンティティ認識タスクでモデルの訓練と評価が行われています。

評価結果

指標	開発セット	テストセット
f1	95.7	91.7
precision	95.3	91.2
recall	96.1	92.3

テスト指標は、文書のコンテキストをエンコードし、CRFを実験した公式のGoogle BERTの結果よりもやや低くなっています。元の結果を再現するための詳細情報はこちらをクリックしてください。

BibTeX引用と引用情報

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}