🚀 distilbert-NER
このオープンソースモデルが皆様に役立った場合、誰にでも役立つ小規模なAIモデルを構築するための支援を検討していただけると幸いです(また、医学部の学費や両親の経済的支援にも役立てます)。ありがとうございます!

📚 モデルの説明
distilbert-NER は、BERTモデルの蒸留バリアントである DistilBERT をファインチューニングしたバージョンです。DistilBERTはBERTよりもパラメータが少なく、より小さく、高速で、効率的です。distilbert-NERは、固有表現認識 (Named Entity Recognition, NER) タスクに特化してファインチューニングされています。
このモデルは、BERTモデルと同じ4種類のエンティティを正確に識別します:場所 (LOC)、組織 (ORG)、人物 (PER)、その他 (MISC)。distilbert-NERはよりコンパクトなモデルですが、NERタスクで堅牢な性能を発揮し、サイズ、速度、精度のバランスを取っています。
このモデルは、CoNLL-2003 Named Entity Recognition データセットの英語版でファインチューニングされています。このデータセットは、包括的で多様なエンティティタイプで広く認知されています。
利用可能なNERモデル
✨ 主な機能
想定される用途と制限
使い方
このモデルは、BERTモデルと同様に、Transformersの pipeline を使用してNERタスクに利用できます。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dslim/distilbert-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/distilbert-NER")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
制限とバイアス
distilbert-NERの性能は、CoNLL-2003データセットでの学習に依存しています。したがって、この学習セットと大きく異なるテキストデータでは、効果が限定的になる可能性があります。ユーザーは、学習データに内在する潜在的なバイアスや、複雑な文でのエンティティの誤分類の可能性に注意する必要があります。
📦 インストール
学習データ
このモデルは、標準的な CoNLL-2003 Named Entity Recognition データセットの英語版でファインチューニングされています。
学習データセットは、エンティティの開始と継続を区別しているため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットの各トークンは、以下のクラスのいずれかに分類されます:
略称 |
説明 |
O |
固有表現の外 |
B-MISC |
別のその他のエンティティの直後にあるその他のエンティティの開始 |
I-MISC |
その他のエンティティ |
B-PER |
別の人物名の直後にある人物名の開始 |
I-PER |
人物名 |
B-ORG |
別の組織の直後にある組織の開始 |
I-ORG |
組織 |
B-LOC |
別の場所の直後にある場所の開始 |
I-LOC |
場所 |
CoNLL-2003英語データセットの統計情報
このデータセットは、ロイターのニュース記事から構成されるロイターコーパスから派生しています。このデータセットの作成方法については、CoNLL-2003の論文で詳しく読むことができます。
エンティティタイプごとの学習例の数
データセット |
LOC |
MISC |
ORG |
PER |
学習用 |
7140 |
3438 |
6321 |
6600 |
検証用 |
1837 |
922 |
1341 |
1842 |
テスト用 |
1668 |
702 |
1661 |
1617 |
データセットごとの記事/文/トークンの数
データセット |
記事 |
文 |
トークン |
学習用 |
946 |
14,987 |
203,621 |
検証用 |
216 |
3,466 |
51,362 |
テスト用 |
231 |
3,684 |
46,435 |
🔧 技術詳細
学習手順
このモデルは、単一のNVIDIA V100 GPU上で、元のBERT論文 から推奨されるハイパーパラメータを使用して学習されました。この論文では、CoNLL-2003 NERタスクでモデルを学習および評価しています。
評価結果
指標 |
スコア |
損失 |
0.0710 |
適合率 |
0.9202 |
再現率 |
0.9232 |
F1スコア |
0.9217 |
正解率 |
0.9810 |
学習と検証の損失はエポックごとに減少しており、効果的な学習が行われていることを示しています。適合率、再現率、およびF1スコアは競争力があり、NERタスクにおけるモデルの堅牢性を示しています。
BibTeXエントリと引用情報
DistilBERTの場合:
@article{sanh2019distilbert,
title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
author={Sanh, Victor and Debut, Lysandre and Chaumond, Julien and Wolf, Thomas},
journal={arXiv preprint arXiv:1910.01108},
year={2019}
}
基礎となるBERTモデルの場合:
@article{DBLP:journals/corr/abs-1810-04805,
author = {Jacob Devlin and
Ming{-}Wei Chang and
Kenton Lee and
Kristina Toutanova},
title = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
Understanding},
journal = {CoRR},
volume = {abs/1810.04805},
year = {2018},
url = {http://arxiv.org/abs/1810.04805},
archivePrefix = {arXiv},
eprint = {1810.04805},
timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。