🚀 bert-large-NER
bert-large-NER は、微調整された BERT モデルで、直接 命名エンティティ認識(Named Entity Recognition) に使用でき、このタスクで 業界トップレベルの性能 を達成しています。このモデルは、地点(LOC)、組織(ORG)、人物(PER)、その他(MISC)の4種類のエンティティを識別するように訓練されています。
🚀 クイックスタート
もし私のオープンソースモデルがあなたに役立つと感じたら、私が小さな実用的なAIモデルを構築するのをサポートすることを検討してください(これは私の医学部の学費の支払いや、両親への経済的支援にもつながります)。ありがとう!

✨ 主な機能
- 微調整モデル:bert-large-cased モデルをベースに、英語の標準 CoNLL - 2003 命名エンティティ認識 データセットで微調整されています。
- 多エンティティ認識:地点、組織、人物、その他の4種類の一般的なエンティティを識別できます。
- 高性能:CoNLL - 2003 データセットのテストセットで、正解率が 0.9031688753722759、F1値が 0.9196968510445761 を達成しています。
💻 使用例
基本的な使用法
Transformers の pipeline を使用して、命名エンティティ認識を行うことができます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
📚 ドキュメント
想定される用途と制限
使い方
上記のコード例のように、Transformers の pipeline を利用して命名エンティティ認識を行うことができます。
制限とバイアス
このモデルは、訓練データセットの制限を受けます。訓練データは特定の期間のエンティティがラベル付けされたニュース記事です。このため、異なる分野のすべてのユースケースでの汎化能力が低い可能性があります。また、モデルは時々サブワードをエンティティとして識別することがあるため、これらのケースを処理するために結果の後処理が必要になる場合があります。
訓練データ
このモデルは、英語の標準 CoNLL - 2003 命名エンティティ認識 データセットで微調整されています。
訓練データセットでは、エンティティの開始と継続を区別しています。これにより、連続する同じタイプのエンティティがある場合、モデルは2番目のエンティティの開始位置を出力できます。データセット内の各トークンは、以下のカテゴリのいずれかに分類されます。
略称 |
説明 |
O |
命名エンティティ以外 |
B - MIS |
別の「その他」エンティティの直後に続く「その他」エンティティの開始 |
I - MIS |
その他のエンティティ |
B - PER |
別の人物名の直後に続く人物名の開始 |
I - PER |
人物名 |
B - ORG |
別の組織の直後に続く組織の開始 |
I - ORG |
組織 |
B - LOC |
別の場所の直後に続く場所の開始 |
I - LOC |
場所 |
CoNLL - 2003 英語データセットの統計情報
このデータセットは路透社のコーパスに由来し、路透社のニュース記事で構成されています。このデータセットの作成方法の詳細は、CoNLL - 2003 の論文で確認できます。
- 各エンティティタイプの訓練例の数
| データセット | LOC | MISC | ORG | PER |
|------|------|------|------|------|
| Train | 7140 | 3438 | 6321 | 6600 |
| Dev | 1837 | 922 | 1341 | 1842 |
| Test | 1668 | 702 | 1661 | 1617 |
- 各データセットの記事/文/トークンの数
| データセット | 記事 | 文 | トークン |
|------|------|------|------|
| Train | 946 | 14,987 | 203,621 |
| Dev | 216 | 3,466 | 51,362 |
| Test | 231 | 3,684 | 46,435 |
訓練過程
このモデルは、単一のNVIDIA V100 GPUで訓練され、元のBERT論文 で推奨されているハイパーパラメータを使用しています。この論文では、CoNLL - 2003 命名エンティティ認識タスクでモデルの訓練と評価が行われています。
評価結果
指標 |
開発セット |
テストセット |
f1 |
95.7 |
91.7 |
precision |
95.3 |
91.2 |
recall |
96.1 |
92.3 |
テスト指標は、文書のコンテキストをエンコードし、CRFを実験した公式のGoogle BERTの結果よりもやや低くなっています。元の結果を再現するための詳細情報は こちら をクリックしてください。
BibTeX引用と引用情報
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F. and
De Meulder, Fien",
booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
year = "2003",
url = "https://www.aclweb.org/anthology/W03-0419",
pages = "142--147",
}
📄 ライセンス
このプロジェクトは、MITライセンスの下で公開されています。