distilbert-NERオープンソース命名エンティティ認識モデル - 軽量設計による性能と効率のバランス

ホーム

Distilbert NER

dslimによって開発

DistilBERTをファインチューニングした軽量な固有表現認識モデル、性能と効率のバランス

シーケンスラベリング

Transformers

英語オープンソースライセンス:Apache-2.0 #軽量NER #効率的なエンティティ認識 #英文テキスト処理

ダウンロード数 48.95k

リリース時間 : 1/25/2024

モデル概要

固有表現認識タスク向けに最適化された蒸留版BERTモデル、LOC/ORG/PER/MISCの4種類のエンティティを認識可能

モデル特徴

軽量で効率的

パラメータ数は66Mのみ、オリジナルBERT比40%削減、推論速度が速い

4種類のエンティティ認識

場所(LOC)、組織(ORG)、人物(PER)、その他(MISC)エンティティを正確に認識

CoNLL-2003ベンチマーク

標準NERデータセットでファインチューニング、F1値0.9217達成

モデル能力

テキストエンティティ認識

連続エンティティ境界検出

ニュース分野のエンティティ抽出

使用事例

情報抽出

ニューステキスト分析

ニュース記事から組織、人名、地理的位置を抽出

入出力例はモデルカードを参照

知識グラフ構築

エンティティ関係抽出

知識グラフ構築の前段階としてのエンティティ認識モジュール

🚀 distilbert-NER

このオープンソースモデルが皆様に役立った場合、誰にでも役立つ小規模なAIモデルを構築するための支援を検討していただけると幸いです（また、医学部の学費や両親の経済的支援にも役立てます）。ありがとうございます！

📚 モデルの説明

distilbert-NER は、BERTモデルの蒸留バリアントである DistilBERT をファインチューニングしたバージョンです。DistilBERTはBERTよりもパラメータが少なく、より小さく、高速で、効率的です。distilbert-NERは、固有表現認識 (Named Entity Recognition, NER) タスクに特化してファインチューニングされています。

このモデルは、BERTモデルと同じ4種類のエンティティを正確に識別します：場所 (LOC)、組織 (ORG)、人物 (PER)、その他 (MISC)。distilbert-NERはよりコンパクトなモデルですが、NERタスクで堅牢な性能を発揮し、サイズ、速度、精度のバランスを取っています。

このモデルは、CoNLL-2003 Named Entity Recognition データセットの英語版でファインチューニングされています。このデータセットは、包括的で多様なエンティティタイプで広く認知されています。

利用可能なNERモデル

モデル名	説明	パラメータ数
distilbert-NER	ファインチューニングされたDistilBERT - BERTの小型、高速、軽量版	66M
bert-large-NER	ファインチューニングされたbert-large-cased - やや性能が良い大型モデル	340M
bert-base-NER-(uncased)	ファインチューニングされたbert-base、大文字小文字区別ありとなしの両方のバージョンがあります	110M

✨ 主な機能

想定される用途と制限

使い方

このモデルは、BERTモデルと同様に、Transformersの pipeline を使用してNERタスクに利用できます。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained("dslim/distilbert-NER")
model = AutoModelForTokenClassification.from_pretrained("dslim/distilbert-NER")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"

ner_results = nlp(example)
print(ner_results)

制限とバイアス

distilbert-NERの性能は、CoNLL-2003データセットでの学習に依存しています。したがって、この学習セットと大きく異なるテキストデータでは、効果が限定的になる可能性があります。ユーザーは、学習データに内在する潜在的なバイアスや、複雑な文でのエンティティの誤分類の可能性に注意する必要があります。

📦 インストール

学習データ

このモデルは、標準的な CoNLL-2003 Named Entity Recognition データセットの英語版でファインチューニングされています。

学習データセットは、エンティティの開始と継続を区別しているため、同じタイプのエンティティが連続している場合でも、モデルは2番目のエンティティの開始位置を出力できます。データセットの各トークンは、以下のクラスのいずれかに分類されます：

略称	説明
O	固有表現の外
B-MISC	別のその他のエンティティの直後にあるその他のエンティティの開始
I-MISC	その他のエンティティ
B-PER	別の人物名の直後にある人物名の開始
I-PER	人物名
B-ORG	別の組織の直後にある組織の開始
I-ORG	組織
B-LOC	別の場所の直後にある場所の開始
I-LOC	場所

CoNLL-2003英語データセットの統計情報

このデータセットは、ロイターのニュース記事から構成されるロイターコーパスから派生しています。このデータセットの作成方法については、CoNLL-2003の論文で詳しく読むことができます。

エンティティタイプごとの学習例の数

データセット	LOC	MISC	ORG	PER
学習用	7140	3438	6321	6600
検証用	1837	922	1341	1842
テスト用	1668	702	1661	1617

データセットごとの記事/文/トークンの数

データセット	記事	文	トークン
学習用	946	14,987	203,621
検証用	216	3,466	51,362
テスト用	231	3,684	46,435

🔧 技術詳細

学習手順

このモデルは、単一のNVIDIA V100 GPU上で、元のBERT論文から推奨されるハイパーパラメータを使用して学習されました。この論文では、CoNLL-2003 NERタスクでモデルを学習および評価しています。

評価結果

指標	スコア
損失	0.0710
適合率	0.9202
再現率	0.9232
F1スコア	0.9217
正解率	0.9810

学習と検証の損失はエポックごとに減少しており、効果的な学習が行われていることを示しています。適合率、再現率、およびF1スコアは競争力があり、NERタスクにおけるモデルの堅牢性を示しています。

BibTeXエントリと引用情報

DistilBERTの場合：

@article{sanh2019distilbert,
  title={DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter},
  author={Sanh, Victor and Debut, Lysandre and Chaumond, Julien and Wolf, Thomas},
  journal={arXiv preprint arXiv:1910.01108},
  year={2019}
}

基礎となるBERTモデルの場合：

@article{DBLP:journals/corr/abs-1810-04805,
  author    = {Jacob Devlin and
               Ming{-}Wei Chang and
               Kenton Lee and
               Kristina Toutanova},
  title     = {{BERT:} Pre-training of Deep Bidirectional Transformers for Language
               Understanding},
  journal   = {CoRR},
  volume    = {abs/1810.04805},
  year      = {2018},
  url       = {http://arxiv.org/abs/1810.04805},
  archivePrefix = {arXiv},
  eprint    = {1810.04805},
  timestamp = {Tue, 30 Oct 2018 20:39:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1810-04805.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}