🚀 AffilGood-NER-multilingual
本項目的AffilGood-NER-multilingual多語言模型是一個命名實體識別(NER)模型,可用於識別科學論文和項目原始隸屬字符串中的命名實體,能助力機構地理定位、知識圖譜構建等工作。
🚀 快速開始
本模型適用於多語言原始隸屬字符串,因為它基於XLM - RoBERTa進行預訓練,NER和大規模進一步預訓練語料庫均為多語言。以下是使用示例:
from transformers import pipeline
affilgood_ner_pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
sentence = "CSIC, Global ecology Unit CREAF-CSIC-UAB, Bellaterra 08193, Catalonia, Spain."
output = affilgood_ner_pipeline(sentence)
print(output)
✨ 主要特性
- 多語言支持:支持眾多語言,如af、am、ar等,適用於不同語言環境下的原始隸屬字符串處理。
- 精準識別:能夠識別七種實體類型,包括
SUB - ORGANISATION
、ORGANISATION
、CITY
、COUNTRY
、ADDRESS
、POSTAL - CODE
和REGION
。
- 助力知識構建:識別隸屬字符串中的命名實體,有助於與外部組織註冊表進行有效鏈接,構建知識圖譜,支持手動編目註冊表的開發。
📚 詳細文檔
模型概述
點擊展開
- 模型類型:語言模型
- 架構:XLM - RoBERTa - base
- 語言:多語言
- 許可證:Apache 2.0
- 任務:命名實體識別
- 數據:AffilGood - NER
- 額外資源:
模型描述
affilgood - NER - multilingual的多語言版本是一個命名實體識別(NER)模型,用於識別科學論文和項目原始隸屬字符串中的命名實體。它基於[AffilXLM](https://huggingface.co/SIRIS - Lab/affilgood - affilxlm)模型進行微調,而AffilXLM是一個XLM - RoBERTa基礎模型,在從OpenAlex收集的中等規模原始隸屬字符串語料庫上針對MLM任務進行了進一步預訓練。
該模型使用包含來自多語言原始隸屬字符串文本的7種主要實體類型的數據集進行訓練,共有5266個文本。在分析了來自多個國家和語言的數百個隸屬關係後,我們定義了七種實體類型:SUB - ORGANISATION
、ORGANISATION
、CITY
、COUNTRY
、ADDRESS
、POSTAL - CODE
和REGION
,[此處查看詳細註釋指南]。
識別隸屬字符串中的命名實體(組織名稱、城市、國家)不僅可以更有效地與外部組織註冊表進行鏈接,還可以在組織的地理定位中發揮重要作用,有助於識別組織及其在機構層次結構中的位置,特別是對於那些未列入外部數據庫的組織。通過NER模型自動提取的信息還可以促進知識圖譜的構建,並支持手動編目註冊表的開發。
預期用途
由於該模型在XLM - RoBERTa上進行了預訓練,且NER和大規模進一步預訓練語料庫均為多語言,因此該模型旨在用於多語言原始隸屬字符串。
侷限性和偏差
目前尚未採取措施來估計模型中嵌入的偏差和毒性。
NER數據集包含從OpenAlex獲得的5266個原始隸屬字符串。它包括來自所有可用國家和地區的多語言樣本,以確保全面覆蓋和多樣性。為了使我們的模型能夠識別各種隸屬字符串格式,數據集包括各種結構、不同的主要和附屬機構分組方式以及不同的組織名稱分隔方法。我們還包括了格式不正確的隸屬關係以及那些由於從PDF文件中自動提取而包含錯誤的隸屬關係。
訓練
我們使用AffilGood - NER數據集進行訓練和評估。
我們使用IOB註釋模式對適應模型和基礎模型進行了標記分類的微調。我們對模型進行了25個週期的訓練,使用80%的數據集進行訓練,10%進行驗證,10%進行測試。
訓練使用的超參數如下:
- 學習率:2e - 5
- 學習率衰減:線性
- 權重衰減:0.01
- 預熱比例:0.06
- 批量大小:128
- 步數:25k步
- Adam ε:1e - 6
- Adam β₁:0.9
- Adam β₂:0.999
考慮使用嚴格匹配標準的宏平均F1值,選擇表現最佳的週期來選擇模型。
評估
模型的性能在10%的數據集上進行了評估。
類別 |
RoBERTa |
XLM |
AffilRoBERTa |
AffilXLM(本模型) |
ALL |
.910 |
.915 |
.920 |
.925 |
ORG |
.869 |
.886 |
.879 |
.906 |
SUB |
.898 |
.890 |
.911 |
.892 |
CITY |
.936 |
.941 |
.950 |
.958 |
COUNTRY |
.971 |
.973 |
.980 |
.970 |
REGION |
.870 |
.876 |
.874 |
.882 |
POSTAL |
.975 |
.975 |
.981 |
.966 |
ADDRESS |
.804 |
.811 |
.794 |
.869 |
以上所有數字均代表嚴格匹配時的F1分數,即實體的邊界和類型都匹配。
🔧 技術細節
本模型基於XLM - RoBERTa基礎模型,在從OpenAlex收集的中等規模原始隸屬字符串語料庫上針對MLM任務進行了進一步預訓練。使用IOB註釋模式對適應模型和基礎模型進行標記分類的微調,訓練25個週期,使用特定的超參數設置,最終選擇表現最佳的週期來確定模型。
📄 許可證
本項目採用[Apache許可證2.0版](https://www.apache.org/licenses/LICENSE - 2.0)進行分發。
作者
- SIRIS Lab,SIRIS Academic研究部,西班牙巴塞羅那
- LaSTUS Lab,TALN Group,龐培法布拉大學,西班牙巴塞羅那
- 計算機科學研究所,波蘭科學院,華沙,波蘭
聯繫方式
如需更多信息,請發送電子郵件至nicolau.duransilva@sirisacademic.com或info@sirisacademic.com。
資金支持
本項目部分由以下機構資助和支持:
- 加泰羅尼亞政府研究與大學部的工業博士計劃,由加泰羅尼亞政府研究與大學部資助(ajuts SGR - Cat 2021)
- 瑪麗亞·德·梅蘇卓越中心計劃CEX2021 - 001195 - M,由MCIN/AEI /10.13039/501100011033資助
- 歐盟地平線計劃SciLake(贈款協議101058573)
- 歐盟地平線計劃ERINIA(贈款協議101060930)
引用
@inproceedings{duran-silva-etal-2024-affilgood,
title = "{A}ffil{G}ood: Building reliable institution name disambiguation tools to improve scientific literature analysis",
author = "Duran-Silva, Nicolau and
Accuosto, Pablo and
Przyby{\l}a, Piotr and
Saggion, Horacio",
editor = "Ghosal, Tirthankar and
Singh, Amanpreet and
Waard, Anita and
Mayr, Philipp and
Naik, Aakanksha and
Weller, Orion and
Lee, Yoonjoo and
Shen, Shannon and
Qin, Yanxia",
booktitle = "Proceedings of the Fourth Workshop on Scholarly Document Processing (SDP 2024)",
month = aug,
year = "2024",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.sdp-1.13",
pages = "135--144",
}
免責聲明
點擊展開
本倉庫中發佈的模型用於通用目的,並根據Apache v2.0許可證提供給第三方。
請記住,該模型可能存在偏差和/或其他不良扭曲。當第三方使用此模型(或基於它的系統)向其他方部署或提供系統和/或服務,或成為模型本身的用戶時,他們應注意,減輕使用該模型帶來的風險並遵守適用法規(包括有關人工智能使用的法規)是他們的責任。
在任何情況下,模型的所有者和創建者均不對第三方使用該模型所產生的任何結果負責。