🚀 AffilGood-NER-multilingual
本项目的AffilGood-NER-multilingual多语言模型是一个命名实体识别(NER)模型,可用于识别科学论文和项目原始隶属字符串中的命名实体,能助力机构地理定位、知识图谱构建等工作。
🚀 快速开始
本模型适用于多语言原始隶属字符串,因为它基于XLM - RoBERTa进行预训练,NER和大规模进一步预训练语料库均为多语言。以下是使用示例:
from transformers import pipeline
affilgood_ner_pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
sentence = "CSIC, Global ecology Unit CREAF-CSIC-UAB, Bellaterra 08193, Catalonia, Spain."
output = affilgood_ner_pipeline(sentence)
print(output)
✨ 主要特性
- 多语言支持:支持众多语言,如af、am、ar等,适用于不同语言环境下的原始隶属字符串处理。
- 精准识别:能够识别七种实体类型,包括
SUB - ORGANISATION
、ORGANISATION
、CITY
、COUNTRY
、ADDRESS
、POSTAL - CODE
和REGION
。
- 助力知识构建:识别隶属字符串中的命名实体,有助于与外部组织注册表进行有效链接,构建知识图谱,支持手动编目注册表的开发。
📚 详细文档
模型概述
点击展开
- 模型类型:语言模型
- 架构:XLM - RoBERTa - base
- 语言:多语言
- 许可证:Apache 2.0
- 任务:命名实体识别
- 数据:AffilGood - NER
- 额外资源:
模型描述
affilgood - NER - multilingual的多语言版本是一个命名实体识别(NER)模型,用于识别科学论文和项目原始隶属字符串中的命名实体。它基于[AffilXLM](https://huggingface.co/SIRIS - Lab/affilgood - affilxlm)模型进行微调,而AffilXLM是一个XLM - RoBERTa基础模型,在从OpenAlex收集的中等规模原始隶属字符串语料库上针对MLM任务进行了进一步预训练。
该模型使用包含来自多语言原始隶属字符串文本的7种主要实体类型的数据集进行训练,共有5266个文本。在分析了来自多个国家和语言的数百个隶属关系后,我们定义了七种实体类型:SUB - ORGANISATION
、ORGANISATION
、CITY
、COUNTRY
、ADDRESS
、POSTAL - CODE
和REGION
,[此处查看详细注释指南]。
识别隶属字符串中的命名实体(组织名称、城市、国家)不仅可以更有效地与外部组织注册表进行链接,还可以在组织的地理定位中发挥重要作用,有助于识别组织及其在机构层次结构中的位置,特别是对于那些未列入外部数据库的组织。通过NER模型自动提取的信息还可以促进知识图谱的构建,并支持手动编目注册表的开发。
预期用途
由于该模型在XLM - RoBERTa上进行了预训练,且NER和大规模进一步预训练语料库均为多语言,因此该模型旨在用于多语言原始隶属字符串。
局限性和偏差
目前尚未采取措施来估计模型中嵌入的偏差和毒性。
NER数据集包含从OpenAlex获得的5266个原始隶属字符串。它包括来自所有可用国家和地区的多语言样本,以确保全面覆盖和多样性。为了使我们的模型能够识别各种隶属字符串格式,数据集包括各种结构、不同的主要和附属机构分组方式以及不同的组织名称分隔方法。我们还包括了格式不正确的隶属关系以及那些由于从PDF文件中自动提取而包含错误的隶属关系。
训练
我们使用AffilGood - NER数据集进行训练和评估。
我们使用IOB注释模式对适应模型和基础模型进行了标记分类的微调。我们对模型进行了25个周期的训练,使用80%的数据集进行训练,10%进行验证,10%进行测试。
训练使用的超参数如下:
- 学习率:2e - 5
- 学习率衰减:线性
- 权重衰减:0.01
- 预热比例:0.06
- 批量大小:128
- 步数:25k步
- Adam ε:1e - 6
- Adam β₁:0.9
- Adam β₂:0.999
考虑使用严格匹配标准的宏平均F1值,选择表现最佳的周期来选择模型。
评估
模型的性能在10%的数据集上进行了评估。
类别 |
RoBERTa |
XLM |
AffilRoBERTa |
AffilXLM(本模型) |
ALL |
.910 |
.915 |
.920 |
.925 |
ORG |
.869 |
.886 |
.879 |
.906 |
SUB |
.898 |
.890 |
.911 |
.892 |
CITY |
.936 |
.941 |
.950 |
.958 |
COUNTRY |
.971 |
.973 |
.980 |
.970 |
REGION |
.870 |
.876 |
.874 |
.882 |
POSTAL |
.975 |
.975 |
.981 |
.966 |
ADDRESS |
.804 |
.811 |
.794 |
.869 |
以上所有数字均代表严格匹配时的F1分数,即实体的边界和类型都匹配。
🔧 技术细节
本模型基于XLM - RoBERTa基础模型,在从OpenAlex收集的中等规模原始隶属字符串语料库上针对MLM任务进行了进一步预训练。使用IOB注释模式对适应模型和基础模型进行标记分类的微调,训练25个周期,使用特定的超参数设置,最终选择表现最佳的周期来确定模型。
📄 许可证
本项目采用[Apache许可证2.0版](https://www.apache.org/licenses/LICENSE - 2.0)进行分发。
作者
- SIRIS Lab,SIRIS Academic研究部,西班牙巴塞罗那
- LaSTUS Lab,TALN Group,庞培法布拉大学,西班牙巴塞罗那
- 计算机科学研究所,波兰科学院,华沙,波兰
联系方式
如需更多信息,请发送电子邮件至nicolau.duransilva@sirisacademic.com或info@sirisacademic.com。
资金支持
本项目部分由以下机构资助和支持:
- 加泰罗尼亚政府研究与大学部的工业博士计划,由加泰罗尼亚政府研究与大学部资助(ajuts SGR - Cat 2021)
- 玛丽亚·德·梅苏卓越中心计划CEX2021 - 001195 - M,由MCIN/AEI /10.13039/501100011033资助
- 欧盟地平线计划SciLake(赠款协议101058573)
- 欧盟地平线计划ERINIA(赠款协议101060930)
引用
@inproceedings{duran-silva-etal-2024-affilgood,
title = "{A}ffil{G}ood: Building reliable institution name disambiguation tools to improve scientific literature analysis",
author = "Duran-Silva, Nicolau and
Accuosto, Pablo and
Przyby{\l}a, Piotr and
Saggion, Horacio",
editor = "Ghosal, Tirthankar and
Singh, Amanpreet and
Waard, Anita and
Mayr, Philipp and
Naik, Aakanksha and
Weller, Orion and
Lee, Yoonjoo and
Shen, Shannon and
Qin, Yanxia",
booktitle = "Proceedings of the Fourth Workshop on Scholarly Document Processing (SDP 2024)",
month = aug,
year = "2024",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.sdp-1.13",
pages = "135--144",
}
免责声明
点击展开
本仓库中发布的模型用于通用目的,并根据Apache v2.0许可证提供给第三方。
请记住,该模型可能存在偏差和/或其他不良扭曲。当第三方使用此模型(或基于它的系统)向其他方部署或提供系统和/或服务,或成为模型本身的用户时,他们应注意,减轻使用该模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者和创建者均不对第三方使用该模型所产生的任何结果负责。