🚀 歴史的新聞の固有表現抽出 (NER) モデル
OCRエラーを含む可能性のあるテキストに対応した、微調整されたRoberta-largeモデルです。
🚀 クイックスタート
このモデルは、Transformersパイプラインを使用して固有表現抽出 (NER) を行うことができます。以下に使用例を示します。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("dell-research-harvard/historical_newspaper_ner")
model = AutoModelForTokenClassification.from_pretrained("dell-research-harvard/historical_newspaper_ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "My name is Wolfgang and I live in Berlin"
ner_results = nlp(example)
print(ner_results)
✨ 主な機能
- historical_newspaper_ner は、OCRエラーを含む可能性のあるテキストに対して微調整されたRoberta-largeモデルです。
- 4種類の固有表現(場所 (LOC)、組織 (ORG)、人物 (PER)、その他 (MISC))を認識するように訓練されています。
- 高精度なラベル付けがされた独自の歴史的新聞データセットで訓練されています。
📦 インストール
このモデルを使用するには、Transformersライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
📚 ドキュメント
モデルの説明
historical_newspaper_ner は、OCRエラーを含む可能性のあるテキストに対して微調整されたRoberta-largeモデルです。4種類の固有表現(場所 (LOC)、組織 (ORG)、人物 (PER)、その他 (MISC))を認識するように訓練されています。このモデルは、高精度なラベル付けがされた独自の歴史的新聞データセットで訓練されています。
想定される用途
このモデルは、Transformersパイプラインを使用して固有表現抽出 (NER) を行うことができます。
制限事項とバイアス
このモデルは歴史的なニュースで訓練されているため、特定の時期のバイアスを反映している可能性があります。また、他の設定に対しては汎化性能が低い場合があります。さらに、モデルは時折、サブワードトークンを固有表現としてタグ付けすることがあり、そのようなケースを処理するために結果の後処理が必要になる場合があります。
訓練データ
訓練データセットは、固有表現の開始と継続を区別しているため、同じタイプの固有表現が連続して出現する場合でも、モデルは2番目の固有表現の開始位置を出力することができます。各トークンは以下のクラスのいずれかに分類されます。
略称 |
説明 |
O |
固有表現の外 |
B - MISC |
その他の固有表現の開始 |
I - MISC |
その他の固有表現 |
B - PER |
人物名の開始 |
I - PER |
人物名 |
B - ORG |
組織の開始 |
I - ORG |
組織 |
B - LOC |
場所の開始 |
I - LOC |
場所 |
このモデルは、アメリカの新聞からOCRされた歴史的な英語のニュースで微調整されています。他のNERデータセットとは異なり、このデータは高精度なラベル付けがされています。すべてのデータは2人の高度なスキルを持つハーバード大学の学部生によって二重に入力され、すべての不一致は手動で解消されました。
エンティティタイプごとの訓練例の数
データセット |
記事 |
PER |
ORG |
LOC |
MISC |
Train |
227 |
1345 |
450 |
1191 |
1037 |
Dev |
48 |
231 |
59 |
192 |
149 |
Test |
48 |
261 |
83 |
199 |
181 |
訓練手順
このデータは、学習率4.7e - 05、バッチサイズ128で184エポックの間、Roberta - Largeモデル (Liu et. al, 2020) を微調整するために使用されました。
評価結果
エンティティ |
F1 |
PER |
94.3 |
ORG |
80.7 |
LOC |
90.8 |
MISC |
79.6 |
Overall (stringent) |
86.5 |
Overall (ignoring entity type) |
90.4 |
注記
このモデルカードは、dslim/bert - base - NER のものに影響を受けています。
引用
このモデルを使用する場合は、以下の論文を引用してください。
@misc{franklin2024ndjv,
title={News Deja Vu: Connecting Past and Present with Semantic Search},
author={Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan and Melissa Dell},
year={2024},
eprint={2406.15593},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2406.15593},
}
アプリケーション
このモデルは、1世紀分の歴史的なニュース記事に適用されています。NEWSWIREデータセット のすべての固有表現を確認することができます。
📄 ライセンス
このモデルはCC - BY - 2.0ライセンスの下で提供されています。