Xlm Roberta Large Ehri Ner All
モデル概要
モデル特徴
モデル能力
使用事例
🚀 ehri-ner/xlm-roberta-large-ehri-ner-all のモデルカード
ヨーロッパホロコースト研究インフラストラクチャ(EHRI)は、分散したホロコースト関連資料に関する情報をアクセス可能かつ相互に関連付けることで、ホロコースト研究を支援することを目指しています。ホロコーストの証言やアーカイブの説明などのテキストから固有表現を検出するツールを作成することで、より多くの資料を特定分野の制御語彙に関連付けやすくなり、意味的に豊かになり、検索しやすくなります。xlm - roberta - large - ehri - ner - all モデルは、EHRI - NER データセットを使用して、ホロコースト関連の固有表現認識(NER)に対して XLM - RoBERTa(XLM - R)をファインチューニングしたものです。EHRI - NER データセットは、EHRI オンライン版のすべての注釈付き文書を集約し、NER モデルのトレーニングに適した形式に変換して構築されています。実験の結果、比較的小規模なデータセットであっても、多言語の実験設定において、多言語注釈でファインチューニングされた XLM - R が達成した全体的な F1 スコアは 81.5% です。
🚀 クイックスタート
このモデルは、EHRI - 3 プロジェクトの研究目的で開発されました。具体的には、単一のモデルがホロコースト関連テキストの異なる文書タイプや言語にまたがってエンティティを認識できるかどうかを判断することが目的でした。実験結果によると、比較的小規模なデータセットであっても、多言語の実験設定では、多言語のホロコースト関連注釈でファインチューニングされた XLM - R の全体的な F1 スコアは 81.5% です。このスコアは十分に高いため、このモデルを展開する次のステップ、すなわち EHRI コミュニティからのフィードバックを受け取ることを検討する価値があると考えられます。EHRI の利害関係者が満足する安定したモデルができたら、このモデルとその将来の後継モデルは、EHRI の編集パイプラインの一部として使用されることを想定しています。つまり、このモデルをサポートするツールにテキストを入力すると、テキスト内の潜在的な固有表現が自動的に事前注釈付けされ、目的のユーザー(研究者や専門のアーカイブ担当者)がそれらをより迅速に検出し、EHRI のカスタム制御語彙や権限セットから関連する制御語彙エンティティにリンクできるようになります。これにより、EHRI ポータルの説明のメタデータを充実させ、検索しやすくすることができます。また、EHRI が新しいオンライン版を開発しやすくなり、EHRI ネットワーク内のアーカイブ担当者や研究者が、多くの手作業を必要とすることなく、資料や研究データを整理、分析、提示する新しい方法を開拓できるようになります。
✨ 主な機能
- 多言語対応:チェコ語、ドイツ語、英語、フランス語、ハンガリー語、オランダ語、ポーランド語、スロバキア語、イディッシュ語のデータでファインチューニングされており、多言語のホロコースト関連テキストの固有表現認識に対応。
- 高い F1 スコア:多言語の実験設定において、全体的な F1 スコアが 81.5% を達成。
📚 ドキュメント
モデルの説明
- 開発者:Dermentzi, M. & Scheithauer, H.
- 資金提供:欧州委員会の H2020 - INFRAIA - 2018–2020 呼びかけ。助成契約 ID 871111。DOI 10.3030/871111。
- 言語(NLP):モデルは cs、de、en、fr、hu、nl、pl、sk、yi のデータでファインチューニングされていますが、クロスリンガル転移能力を持つ多言語ベースモデル(XLM - R)を使用しているため、それ以上の言語でも機能する可能性があります。
- ライセンス:EUPL - 1.2
- ファインチューニング元のモデル:FacebookAI/xlm - roberta - large
プロパティ | 詳細 |
---|---|
モデルタイプ | ファインチューニングされた XLM - RoBERTa |
トレーニングデータ | EHRI - NER データセット(チェコ語、ドイツ語、英語、フランス語、ハンガリー語、オランダ語、ポーランド語、スロバキア語、イディッシュ語) |
使用方法
このモデルは、EHRI 関連の編集および出版パイプラインの一部として機能することを想定しています。EHRI ポータルの説明のメタデータを充実させ、検索しやすくするために使用できます。また、新しいオンライン版の開発や、アーカイブ担当者や研究者が資料や研究データを整理、分析、提示するのに役立ちます。
制限事項
このモデルをファインチューニングするために使用されたデータセットは、一連の手動で注釈付けされたデジタル学術版である EHRI オンライン版に由来しています。これらの版の元の目的は、NER モデルのトレーニング用のデータセットを提供することではありませんでしたが、それでもこのように使用するのに適した高品質のリソースであると考えられます。ただし、ユーザーは、このデータセットが目的に合わせて構築されていないリソースを再利用していることに留意する必要があります。
ファインチューニングされたモデルは、時々エンティティを非エンティティトークンと誤分類します。I - GHETTO が最も誤分類されやすいエンティティです。また、ファインチューニングされたモデルは、I - CAMP、I - LOC、I - ORG などのマルチトークンエンティティを抽出する際に時々困難に直面します。これらは、エンティティの始まりと混同されることがあります。さらに、B - GHETTO と B - CAMP を B - LOC と誤分類する傾向がありますが、これは意味的に近いため驚くことではありません。
このモデルは、EHRI 関連の編集および出版パイプラインの一部として機能することを想定しており、他のユーザーや組織の目的には適さない場合があります。
推奨事項
詳細については、このモデルに付随する論文を読むことをお勧めします。 Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222
引用方法
BibTeX:
@inproceedings{dermentzi_repurposing_2024,
address = {Torino, Italy},
title = {Repurposing {Holocaust}-{Related} {Digital} {Scholarly} {Editions} to {Develop} {Multilingual} {Domain}-{Specific} {Named} {Entity} {Recognition} {Tools}},
url = {https://hal.science/hal-04547222},
abstract = {The European Holocaust Research Infrastructure (EHRI) aims to support Holocaust research by making information about dispersed Holocaust material accessible and interconnected through its services. Creating a tool capable of detecting named entities in texts such as Holocaust testimonies or archival descriptions would make it easier to link more material with relevant identifiers in domain-specific controlled vocabularies, semantically enriching it, and making it more discoverable. With this paper, we release EHRI-NER, a multilingual dataset (Czech, German, English, French, Hungarian, Dutch, Polish, Slovak, Yiddish) for Named Entity Recognition (NER) in Holocaust-related texts. EHRI-NER is built by aggregating all the annotated documents in the EHRI Online Editions and converting them to a format suitable for training NER models. We leverage this dataset to fine-tune the multilingual Transformer-based language model XLM-RoBERTa (XLM-R) to determine whether a single model can be trained to recognize entities across different document types and languages. The results of our experiments show that despite our relatively small dataset, in a multilingual experiment setup, the overall F1 score achieved by XLM-R fine-tuned on multilingual annotations is 81.5{\textbackslash}\%. We argue that this score is sufficiently high to consider the next steps towards deploying this model.},
urldate = {2024-04-29},
booktitle = {{LREC}-{COLING} 2024 - {Joint} {International} {Conference} on {Computational} {Linguistics}, {Language} {Resources} and {Evaluation}},
publisher = {ELRA Language Resources Association (ELRA); International Committee on Computational Linguistics (ICCL)},
author = {Dermentzi, Maria and Scheithauer, Hugo},
month = may,
year = {2024},
keywords = {Digital Editions, Holocaust Testimonies, Multilingual, Named Entity Recognition, Transfer Learning, Transformers},
}
APA: Dermentzi, M., & Scheithauer, H. (2024, May). Repurposing Holocaust - Related Digital Scholarly Editions to Develop Multilingual Domain - Specific Named Entity Recognition Tools. LREC - COLING 2024 - Joint International Conference on Computational Linguistics, Language Resources and Evaluation. HTRes@LREC - COLING 2024, Torino, Italy. https://hal.science/hal - 04547222
📄 ライセンス
このモデルは EUPL - 1.1 ライセンスの下で提供されています。








