开源bsc - bio - ehr - es - pharmaconer模型，免费实现西班牙语生物医学命名实体识别

首页

Bsc Bio Ehr Es Pharmaconer

由 PlanTL-GOB-ES 开发

这是一个基于RoBERTa的西班牙语生物医学模型，专门针对PharmaCoNER数据集进行命名实体识别任务微调。

序列标注

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语生物医学NER #临床电子病历分析 #药物实体识别

下载量 250

发布时间 : 4/6/2022

模型简介

该模型基于RoBERTa基础架构，使用西班牙语生物医学语料库预训练，并在PharmaCoNER数据集上微调，用于识别生物医学文本中的物质、化合物和蛋白质实体。

模型特点

生物医学领域优化

使用11亿标记的西班牙语生物医学语料库预训练，特别适合处理临床和生物医学文本

高精度实体识别

在PharmaCoNER数据集上达到0.8913的F1值，能准确识别物质、化合物和蛋白质实体

临床文本适配

训练数据包含电子健康记录(EHR)和临床病例，对医疗领域文本有良好适应性

模型能力

生物医学文本分析

临床实体识别

药物和化合物识别

蛋白质实体检测

使用案例

临床研究

药物副作用分析

从临床记录中识别可能与药物副作用相关的实体

可帮助研究人员快速定位潜在药物不良反应

实验室结果解析

解析包含实验室检测结果的临床文本

自动提取关键生物标记物和数值

医疗信息提取

电子健康记录处理

从EHR中提取药物、剂量和治疗方案信息

支持医疗决策和患者管理

🚀 PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer 西班牙生物医学模型

本模型是基于西班牙语的RoBERTa-base生物医学模型，针对PharmaCoNER数据集上的命名实体识别（NER）任务进行了微调。它能够有效识别生物医学文本中的物质、化合物和蛋白质实体，为生物医学领域的信息提取提供了有力支持。

🚀 快速开始

该模型可用于生物医学文本的命名实体识别任务。你可以通过以下方式使用：

# 代码示例将根据实际情况补充

✨ 主要特性

特定领域微调：基于PharmaCoNER数据集进行微调，在生物医学命名实体识别任务上表现出色。
高评估指标：F1分数达到0.8913，具有较高的识别准确性。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

# 这里可以根据实际的使用代码进行补充

高级用法

# 高级使用场景说明
# 这里可以根据实际的高级使用代码进行补充

📚 详细文档

模型描述

本模型是 bsc-bio-ehr-es 模型的微调版本，基于 RoBERTa 基础模型。它使用了迄今为止已知的最大的西班牙生物医学语料库进行预训练，该语料库由生物医学文档、临床病例和电子健康记录（EHR）文档组成，总共处理了11亿个干净且去重的文本标记。

预期用途和限制

暂未提供相关内容。

限制和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上进行爬取技术收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果完成研究，本模型卡片将进行更新。

训练

使用的数据集是 PharmaCoNER，这是一个标注了物质、化合物和蛋白质实体的命名实体识别数据集。更多信息请查看官方网站。

评估

F1分数：0.8913。如需了解评估详情，请访问我们的 GitHub仓库。

额外信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc-temu@bsc.es）

联系信息

如需进一步信息，请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化和人工智能国务秘书处（SEDIA）所有（2022）

许可信息

Apache许可证，版本2.0

资金支持

这项工作由西班牙数字化和人工智能国务秘书处（SEDIA）在Plan - TL框架内资助。

引用信息

如果您使用这些模型，请引用我们的工作：

@inproceedings{carrino-etal-2022-pretrained,
    title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
    author = "Carrino, Casimiro Pio  and
      Llop, Joan  and
      P{\`a}mies, Marc  and
      Guti{\'e}rrez-Fandi{\~n}o, Asier  and
      Armengol-Estap{\'e}, Jordi  and
      Silveira-Ocampo, Joaqu{\'\i}n  and
      Valencia, Alfonso  and
      Gonzalez-Agirre, Aitor  and
      Villegas, Marta",
    booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.bionlp-1.19",
    doi = "10.18653/v1/2022.bionlp-1.19",
    pages = "193--199",
    abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}