🚀 bert-base-NERのONNX変換
bert-base-NER をONNX形式に変換したモデルで、固有表現認識(NER)タスクに最適化されています。
🚀 クイックスタート
このモデルは、固有表現認識(NER)タスクにすぐに使用できるように微調整されたBERTモデルです。
✨ 主な機能
- 高性能:NERタスクにおいて最先端の性能を達成します。
- 多様なエンティティ認識:場所(LOC)、組織(ORG)、人物(PER)、その他(MISC)の4種類のエンティティを認識できます。
📚 ドキュメント
モデルの説明
bert-base-NER は、固有表現認識(Named Entity Recognition)にすぐに使用できるように微調整されたBERTモデルで、NERタスクにおいて最先端の性能を達成しています。このモデルは、場所(LOC)、組織(ORG)、人物(PER)、その他(MISC)の4種類のエンティティを認識するように訓練されています。
具体的には、このモデルは bert-base-cased モデルを標準の英語版 CoNLL-2003 固有表現認識 データセットで微調整したものです。
同じデータセットで微調整されたより大きなBERT-largeモデルを使用したい場合は、bert-large-NER バージョンも利用可能です。
想定される用途と制限
使い方
Transformersの pipeline を使用して、このモデルをNERに使用することができます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/bert-base-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/bert-base-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
制限とバイアス
このモデルは、特定の期間のエンティティがアノテーションされたニュース記事の訓練データセットに制限されています。このため、異なるドメインのすべてのユースケースにうまく一般化できない可能性があります。さらに、モデルは時々サブワードトークンをエンティティとしてタグ付けすることがあり、そのようなケースを処理するために結果の後処理が必要になる場合があります。
訓練データ
このモデルは、標準の英語版 CoNLL-2003 固有表現認識 データセットで微調整されています。
訓練データセットは、エンティティの開始と継続を区別するため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットでは、各トークンは以下のクラスのいずれかに分類されます。
属性 |
详情 |
モデルタイプ |
微調整されたBERTモデル |
訓練データ |
英語版のCoNLL - 2003固有表現認識データセット |
CoNLL-2003英語データセットの統計情報
このデータセットは、ロイターのニュース記事からなるロイターコーパスから派生しています。このデータセットの作成方法の詳細は、CoNLL - 2003の論文で読むことができます。
エンティティタイプごとの訓練例の数
データセット |
LOC |
MISC |
ORG |
PER |
訓練データ |
7140 |
3438 |
6321 |
6600 |
検証データ |
1837 |
922 |
1341 |
1842 |
テストデータ |
1668 |
702 |
1661 |
1617 |
データセットごとの記事/文/トークンの数
データセット |
記事数 |
文数 |
トークン数 |
訓練データ |
946 |
14,987 |
203,621 |
検証データ |
216 |
3,466 |
51,362 |
テストデータ |
231 |
3,684 |
46,435 |
訓練手順
このモデルは、単一のNVIDIA V100 GPU上で、元のBERT論文 から推奨されるハイパーパラメータを使用して訓練されました。この論文では、CoNLL - 2003 NERタスクでモデルの訓練と評価が行われています。
評価結果
指標 |
検証データ |
テストデータ |
F1スコア |
95.1 |
91.3 |
精度 |
95.0 |
90.7 |
再現率 |
95.3 |
91.9 |
テストメトリクスは、文書コンテキストをエンコードし、CRFを実験した公式のGoogle BERTの結果よりも少し低くなっています。元の結果を再現する方法の詳細は こちら を参照してください。
BibTeXエントリと引用情報
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
author = "Tjong Kim Sang, Erik F. and
De Meulder, Fien",
booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
year = "2003",
url = "https://www.aclweb.org/anthology/W03-0419",
pages = "142--147",
}
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。