🚀 AffilGood-NER-multilingual
このモデルは、科学論文やプロジェクトの生の所属機関文字列から固有表現を識別するための多言語対応の固有表現認識(NER)モデルです。外部の組織レジストリとのリンクや知識グラフの構築に役立ちます。
🚀 クイックスタート
このモデルは、多言語の生の所属機関文字列に対して使用することを目的としています。以下のコード例で使用方法を紹介します。
✨ 主な機能
- 多言語の生の所属機関文字列から7種類の固有表現を識別します。
- 外部の組織レジストリとのリンクや知識グラフの構築に役立ちます。
📦 インストール
このREADMEにはインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
from transformers import pipeline
affilgood_ner_pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
sentence = "CSIC, Global ecology Unit CREAF-CSIC-UAB, Bellaterra 08193, Catalonia, Spain."
output = affilgood_ner_pipeline(sentence)
print(output)
高度な使用法
このREADMEには高度な使用法に関するコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
概要
クリックして展開
属性 |
详情 |
モデルタイプ |
言語モデル |
アーキテクチャ |
XLM-RoBERTa-base |
言語 |
多言語 |
ライセンス |
Apache 2.0 |
タスク |
固有表現認識 |
データ |
AffilGood-NER |
追加リソース |
論文、GitHub |
モデルの説明
affilgood-NER-multilingual の多言語版は、科学論文やプロジェクトの生の所属機関文字列から固有表現を識別するための固有表現認識(NER)モデルです。このモデルは、AffilXLM モデルから微調整されており、このモデルは XLM-RoBERTa ベースモデルをOpenAlexから収集した中規模の生の所属機関文字列コーパスでMLMタスクに対してさらに事前学習したものです。
このモデルは、多言語の生の所属機関文字列テキストから7種類の主要なエンティティタイプを含む5,266のテキストを持つデータセットで学習されています。
複数の国や言語の数百の所属機関を分析した後、SUB-ORGANISATION
、ORGANISATION
、CITY
、COUNTRY
、ADDRESS
、POSTAL-CODE
、REGION
の7つのエンティティタイプを定義しました。詳細な注釈ガイドラインは [こちら] です。
所属機関文字列内の固有表現(組織名、都市名、国名)を識別することは、外部の組織レジストリとのより効果的なリンクを可能にするだけでなく、組織の地理的位置特定にも重要な役割を果たし、組織を識別し、制度的階層におけるそれらの位置を特定するのにも貢献します。特に外部データベースにリストされていない組織にとっては、NERモデルによって自動的に抽出された情報は、知識グラフの構築を容易にし、手動で作成されたレジストリの開発をサポートすることができます。
想定される使用方法
このモデルは、多言語の生の所属機関文字列に対して使用することを目的としています。このモデルはXLM-RoBERTaで事前学習されており、NERと大規模な追加事前学習コーパスの両方が多言語です。
制限とバイアス
モデルに埋め込まれたバイアスと毒性を推定するための措置は取られていません。
NERデータセットには、OpenAlexから取得した5,266の生の所属機関文字列が含まれています。すべての利用可能な国や地理的地域からの多言語サンプルが含まれており、包括的なカバレッジと多様性を確保しています。モデルがさまざまな所属機関文字列形式を認識できるようにするために、データセットにはさまざまな構造、主要機関と子機関のグループ化方法、組織名の区切り方法が含まれています。また、不適切な形式の所属機関やPDFファイルからの自動抽出によるエラーを含むものも含まれています。
トレーニング
AffilGood-NERデータセット を使用してトレーニングと評価を行いました。
IOB注釈スキーマを使用して、適応モデルとベースモデルをトークン分類のために微調整しました。データセットの80%をトレーニングに、10%を検証に、10%をテストに使用して、モデルを25エポック学習させました。
トレーニングに使用されたハイパーパラメータは以下の通りです。
- 学習率: 2e-5
- 学習率減衰: 線形
- 重み減衰: 0.01
- ウォームアップ割合: 0.06
- バッチサイズ: 128
- ステップ数: 25kステップ
- Adam ε: 1e-6
- Adam β1: 0.9
- Adam β2: 0.999
最良の性能を示したエポック(strict マッチング基準によるマクロ平均F1を考慮)がモデルの選択に使用されました。
評価
モデルの性能は、データセットの10%で評価されました。
カテゴリ |
RoBERTa |
XLM |
AffilRoBERTa |
AffilXLM (このモデル) |
ALL |
.910 |
.915 |
.920 |
.925 |
ORG |
.869 |
.886 |
.879 |
.906 |
SUB |
.898 |
.890 |
.911 |
.892 |
CITY |
.936 |
.941 |
.950 |
.958 |
COUNTRY |
.971 |
.973 |
.980 |
.970 |
REGION |
.870 |
.876 |
.874 |
.882 |
POSTAL |
.975 |
.975 |
.981 |
.966 |
ADDRESS |
.804 |
.811 |
.794 |
.869 |
上記のすべての数値は、エンティティの境界とタイプの両方が一致する場合の strict マッチングによるF1スコアを表しています。
🔧 技術詳細
このREADMEには技術的な実装詳細が十分に記載されていないため、このセクションをスキップします。
📄 ライセンス
この作品は Apache License, Version 2.0 の下で配布されています。
著者
- SIRIS Lab, Research Division of SIRIS Academic, Barcelona, Spain
- LaSTUS Lab, TALN Group, Universitat Pompeu Fabra, Barcelona, Spain
- Institute of Computer Science, Polish Academy of Sciences, Warsaw, Poland
連絡先
詳細については、nicolau.duransilva@sirisacademic.com または info@sirisacademic.com までメールを送信してください。
資金提供
この作品は、以下の機関によって部分的に資金提供および支援されています。
- Industrial Doctorates Plan of the Department of Research and Universities of the Generalitat de Catalunya, by Departament de Recerca i Universitats de la Generalitat de Catalunya (ajuts SGR-Cat 2021)
- Maria de Maeztu Units of Excellence Programme CEX2021-001195-M, funded by MCIN/AEI /10.13039/501100011033
- EU HORIZON SciLake (Grant Agreement 101058573)
- EU HORIZON ERINIA (Grant Agreement 101060930)
引用
@inproceedings{duran-silva-etal-2024-affilgood,
title = "{A}ffil{G}ood: Building reliable institution name disambiguation tools to improve scientific literature analysis",
author = "Duran-Silva, Nicolau and
Accuosto, Pablo and
Przyby{\l}a, Piotr and
Saggion, Horacio",
editor = "Ghosal, Tirthankar and
Singh, Amanpreet and
Waard, Anita and
Mayr, Philipp and
Naik, Aakanksha and
Weller, Orion and
Lee, Yoonjoo and
Shen, Shannon and
Qin, Yanxia",
booktitle = "Proceedings of the Fourth Workshop on Scholarly Document Processing (SDP 2024)",
month = aug,
year = "2024",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.sdp-1.13",
pages = "135--144",
}
免責事項
クリックして展開
このリポジトリに公開されているモデルは、一般的な目的で作成されており、Apache v2.0ライセンスの下で第三者に提供されています。
モデルにはバイアスやその他の望ましくない歪みが含まれている可能性があることに注意してください。第三者がこのモデル(またはそれに基づくシステム)を使用してシステムやサービスを他の当事者に展開または提供する場合、またはモデル自体のユーザーになる場合、その使用に起因するリスクを軽減し、いかなる場合も、人工知能の使用に関する規制を含む適用可能な規制に準拠する責任は彼ら自身にあります。
いかなる場合も、モデルの所有者や作成者は、第三者による使用から生じるいかなる結果に対しても責任を負いません。