H

Historical Newspaper Ner

dell-research-harvardによって開発
Roberta-largeをファインチューニングした固有表現認識モデルで、OCRエラーを含む可能性のある歴史的な新聞テキスト専用です。
ダウンロード数 209
リリース時間 : 9/14/2023

モデル概要

このモデルは4種類のエンティティを認識できます:場所(LOC)、組織(ORG)、人物(PER)、その他のカテゴリ(MISC)。歴史的なニューステキスト分析に適しています。

モデル特徴

高精度アノテーション
トレーニングデータはハーバード大学の学部生による二重入力と手動チェックが行われており、アノテーション品質が非常に高いです。
OCRエラー耐性
OCRエラーを含む可能性のあるテキストに最適化されており、歴史的な新聞などの低品質テキストに適しています。
エンティティタイプの区別
エンティティの開始部分と継続部分を区別でき、同種エンティティが連続して出現する場合を効果的に処理します。

モデル能力

固有表現認識
歴史テキスト分析
OCRエラーテキスト処理

使用事例

歴史研究
歴史的人物識別
歴史的な新聞から重要な人物の名前と関連情報を識別します。
PERエンティティF1値94.3
歴史的地点分析
歴史的なイベントの発生場所を識別し、地理空間分析に使用します。
LOCエンティティF1値90.8
アーカイブデジタル化
新聞コンテンツの構造化
スキャンした新聞のOCRテキストを構造化データに変換し、検索と分析を容易にします。
全体の厳密マッチF1値86.5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase