🚀 bert-base-NER
bert-base-NER は、微調整されたBERTモデルで、固有表現抽出(Named Entity Recognition, NER)に直接使用でき、NERタスクで業界トップレベルの性能を達成しています。このモデルは、位置(LOC)、組織(ORG)、人物(PER)、その他(MISC)の4種類のエンティティを識別できます。
🚀 クイックスタート
Transformersの pipeline を使用して、このモデルをNERタスクに利用することができます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/bert-base-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-base-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
✨ 主な機能
- 微調整BERTモデル:BERTモデルをベースに微調整されており、固有表現抽出タスクで優れた性能を発揮します。
- 複数エンティティタイプの識別:位置、組織、人物、その他の4種類のエンティティを識別できます。
- 複数バージョンの選択肢:このモデルの他に、distilbert-NER、bert-large-NER などの異なるバージョンが利用可能です。
利用可能なNERモデル
📚 ドキュメント
想定される用途と制限事項
制限事項とバイアス
このモデルは、特定の期間の固有表現がアノテーションされたニュース記事のトレーニングデータセットに制限されています。したがって、異なるドメインのすべてのユースケースにうまく汎化できない可能性があります。また、このモデルは時々サブワードをエンティティとして識別することがあり、これらのケースを処理するために結果の後処理が必要になる場合があります。
トレーニングデータ
このモデルは、標準の CoNLL-2003固有表現抽出 データセットの英語版で微調整されています。
トレーニングデータセットでは、エンティティの開始と継続を区別しているため、連続する同じタイプのエンティティがある場合、モデルは2番目のエンティティの開始位置を出力できます。データセット内の各トークンは、以下のカテゴリのいずれかに分類されます。
略称 |
説明 |
O |
固有表現以外 |
B-MISC |
別の「その他」エンティティの直後に続く「その他」エンティティの開始 |
I-MISC |
その他のエンティティ |
B-PER |
別の人物名の直後に続く人物名の開始 |
I-PER |
人物名 |
B-ORG |
別の組織の直後に続く組織の開始 |
I-ORG |
組織 |
B-LOC |
別の位置の直後に続く位置の開始 |
I-LOC |
位置 |
CoNLL - 2003英語データセットの統計情報
このデータセットは、ロイターのニュース記事からなるロイターコーパスに由来しています。このデータセットの作成方法の詳細は、CoNLL - 2003の論文で確認できます。
各エンティティタイプのトレーニング例の数
データセット |
位置(LOC) |
その他(MISC) |
組織(ORG) |
人物(PER) |
トレーニングセット |
7140 |
3438 |
6321 |
6600 |
検証セット |
1837 |
922 |
1341 |
1842 |
テストセット |
1668 |
702 |
1661 |
1617 |
各データセットの記事/文/トークンの数
データセット |
記事数 |
文数 |
トークン数 |
トレーニングセット |
946 |
14,987 |
203,621 |
検証セット |
216 |
3,466 |
51,362 |
テストセット |
231 |
3,684 |
46,435 |
トレーニングプロセス
このモデルは、単一のNVIDIA V100 GPUでトレーニングされ、元のBERT論文 で推奨されているハイパーパラメータが使用されています。この論文では、CoNLL - 2003 NERタスクでモデルがトレーニングおよび評価されています。
評価結果
指標 |
検証セット |
テストセット |
F1 |
95.1 |
91.3 |
精度 |
95.0 |
90.7 |
再現率 |
95.3 |
91.9 |
テスト指標は、ドキュメントのコンテキストをエンコードし、CRFを実験した公式のGoogle BERTの結果よりもわずかに低くなっています。元の結果を再現するための詳細な情報は、こちら を参照してください。
BibTeX引用と引用情報
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F. and
De Meulder, Fien",
booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
year = "2003",
url = "https://www.aclweb.org/anthology/W03-0419",
pages = "142--147",
}
📄 ライセンス
このプロジェクトはMITライセンスの下で提供されています。