🚀 PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer 西班牙生物医学模型
本模型是基于西班牙语的RoBERTa-base生物医学模型,针对PharmaCoNER数据集上的命名实体识别(NER)任务进行了微调。它能够有效识别生物医学文本中的物质、化合物和蛋白质实体,为生物医学领域的信息提取提供了有力支持。
🚀 快速开始
该模型可用于生物医学文本的命名实体识别任务。你可以通过以下方式使用:
✨ 主要特性
- 特定领域微调:基于PharmaCoNER数据集进行微调,在生物医学命名实体识别任务上表现出色。
- 高评估指标:F1分数达到0.8913,具有较高的识别准确性。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
基础用法
高级用法
📚 详细文档
模型描述
本模型是 bsc-bio-ehr-es 模型的微调版本,基于 RoBERTa 基础模型。它使用了迄今为止已知的最大的西班牙生物医学语料库进行预训练,该语料库由生物医学文档、临床病例和电子健康记录(EHR)文档组成,总共处理了11亿个干净且去重的文本标记。
预期用途和限制
暂未提供相关内容。
限制和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。然而,我们深知由于语料库是通过在多个网络源上进行爬取技术收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果完成研究,本模型卡片将进行更新。
训练
使用的数据集是 PharmaCoNER,这是一个标注了物质、化合物和蛋白质实体的命名实体识别数据集。更多信息请查看 官方网站。
评估
F1分数:0.8913。
如需了解评估详情,请访问我们的 GitHub仓库。
额外信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需进一步信息,请发送电子邮件至 plantl-gob-es@bsc.es
版权
版权归西班牙数字化和人工智能国务秘书处(SEDIA)所有(2022)
许可信息
Apache许可证,版本2.0
资金支持
这项工作由西班牙数字化和人工智能国务秘书处(SEDIA)在Plan - TL框架内资助。
引用信息
如果您使用这些模型,请引用我们的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意减轻使用这些模型带来的风险是他们的责任,并且在任何情况下都应遵守适用的法规,包括有关人工智能使用的法规。
在任何情况下,模型的所有者(SEDIA - 西班牙数字化和人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型产生的任何结果负责。
🔧 技术细节
暂未提供相关技术细节。
📄 许可证
本模型使用 Apache License, Version 2.0 许可证。