roberta-base-biomedical-clinical-es开源模型 - 助力医疗领域西班牙语临床文本处理

首页

Roberta Base Biomedical Clinical Es

由 PlanTL-GOB-ES 开发

基于RoBERTa架构的西班牙语生物医学临床文本预训练模型，专为医疗领域设计

大型语言模型

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语临床文本 #生物医学NER优化 #多源医疗语料

下载量 850

发布时间 : 3/2/2022

模型简介

该模型通过大量西班牙语生物医学临床文本训练而成，主要用于掩码语言建模任务，适合在医疗文本处理任务中进行微调使用

模型特点

专业领域适配

专门针对西班牙语生物医学临床文本进行优化

多源数据训练

整合了医疗爬虫数据、临床病例集、科学文献等多种来源的训练数据

高性能表现

在多个西班牙语医疗NER任务上优于mBERT和BETO模型

模型能力

生物医学文本理解

临床术语识别

医疗文本填充

使用案例

临床文本处理

医疗记录分析

自动填充医疗记录中的专业术语

示例显示能准确预测'高血压'等临床术语

医学实体识别

识别医疗文本中的疾病、药物等实体

在PharmaCoNER任务上达到90.04 F1值

医学研究

文献信息提取

从医学文献中提取关键信息

🚀 西班牙语生物医学临床语言模型

本项目是一个西班牙语生物医学预训练语言模型，可用于掩码语言建模任务，也可在下游任务（如命名实体识别或文本分类）中进行微调。

🚀 快速开始

本模型可直接用于掩码语言建模以执行填充掩码任务（可以尝试推理 API 或阅读后续部分）。不过，它也可用于在下游任务（如命名实体识别或文本分类）中进行微调。

✨ 主要特性

基于 RoBERTa 架构，在西班牙语生物医学临床语料库上进行预训练。
可直接用于填充掩码任务，也可在下游任务中进行微调。

📦 安装指南

文档中未提及具体安装步骤，故跳过此章节。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")

# 输出
[
  {
    "sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
    "score": 0.9855039715766907,
    "token": 3529,
    "token_str": " hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
    "score": 0.0039140828885138035,
    "token": 1945,
    "token_str": " diabetes"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
    "score": 0.002484665485098958,
    "token": 11483,
    "token_str": " hipotensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
    "score": 0.0023484621196985245,
    "token": 12238,
    "token_str": " Hipertensión"
  },
  {
    "sequence": " El único antecedente personal a reseñar era la presión arterial.",
    "score": 0.0008009297889657319,
    "token": 2267,
    "token_str": " presión"
  }
]

📚 详细文档

模型描述

这是一个用于西班牙语的生物医学预训练语言模型。该模型基于 RoBERTa 架构，在从多个来源收集的西班牙语生物医学临床语料库上进行训练。

预期用途和限制

该模型仅可直接用于掩码语言建模以执行填充掩码任务（尝试推理 API 或阅读下一节）。不过，它旨在在下游任务（如命名实体识别或文本分类）中进行微调。

局限性和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。然而，我们深知由于语料库是使用爬虫技术从多个网络来源收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果完成研究，此模型卡片将进行更新。

训练

训练语料库使用了 Byte-Pair Encoding (BPE) 的字节版本进行分词，这与原始 RoBERTa 模型中使用的方法相同，词汇量为 52,000 个标记。预训练包括在子词级别进行掩码语言模型训练，遵循 RoBERTa 基础模型采用的方法，并使用与原始工作相同的超参数。训练总共持续了 48 小时，使用了 16 个 16GB DDRAM 的 NVIDIA V100 GPU，采用 Adam 优化器，峰值学习率为 0.0005，有效批量大小为 2,048 个句子。

训练语料库由几个西班牙语生物医学语料库组成，这些语料库来自公开可用的语料库和爬虫，以及从超过 278,000 份临床文档和笔记中收集的真实临床语料库。为了获得高质量的训练语料库，同时保留临床语言的特点，仅对生物医学语料库应用了清理流程，而临床语料库保持未清理状态。本质上，使用的清理操作包括：

不同格式的数据解析
句子分割
语言检测
格式错误句子的过滤
重复内容的去重
保留原始文档边界

然后，将生物医学语料库进行连接，并在生物医学语料库之间进行进一步的全局去重。最终，将临床语料库连接到清理后的生物医学语料库，形成一个包含超过 10 亿个标记的中等规模西班牙语生物医学临床语料库。下表显示了各个清理后语料库的一些基本统计信息：

名称	标记数量	描述
Medical crawler	745,705,946	对属于西班牙语生物医学和健康领域的 3000 多个 URL 进行爬取的结果。
临床病例杂项	102,855,267	各种医学内容，主要是临床病例。请注意，临床病例报告是医学从业者分享患者病例的科学出版物，与临床笔记或文档不同。
临床笔记/文档	91,250,080	收集了超过 278,000 份临床文档，包括出院报告、临床病程记录和 X 光报告，总共包含 9100 万个标记。
Scielo	60,007,289	2017 年从西班牙 SciELO 服务器爬取的西班牙语出版物。
BARR2_background	24,516,442	生物医学缩写识别和解析 (BARR2)，包含来自各种临床学科的西班牙语临床病例研究部分。
维基百科生命科学	13,890,501	2021 年 4 月 1 日使用 Wikipedia API python 库从“Ciencias_de_la_vida”类别开始爬取的维基百科文章，最多爬取 5 个子类别。然后丢弃指向同一文章的多个链接，以避免重复内容。
专利	13,463,387	西班牙医学领域的谷歌专利（西班牙语）。专利 Json 文件接受的代码（医学领域）为："A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"。
EMEA	5,377,448	从欧洲药品管理局的 PDF 文档组成的平行语料库中提取的西班牙语文档。
mespen_Medline	4,166,077	从一个由生物医学科学文献组成的西班牙语 - 英语平行语料库中提取的西班牙语文章。平行资源的集合来自 MedlinePlus 来源。
PubMed	1,858,966	2017 年从 PubMed 存储库爬取的开放获取文章。

评估

该模型在命名实体识别 (NER) 任务上使用以下数据集进行了评估：

PharmaCoNER：是一个从西班牙语医学文本中识别化学和药物提及的任务（更多信息请参阅：https://temu.bsc.es/pharmaconer/）。
CANTEMIST：是一个专门关注西班牙语肿瘤形态命名实体识别的共享任务（更多信息请参阅：https://zenodo.org/record/3978041#.YTt5qH2xXbQ）。
ICTUSnet：由来自 18 家不同西班牙医院的 1,006 份中风患者出院报告组成。它包含 51 种不同类型变量的超过 79,000 个注释。

评估结果与 mBERT 和 BETO 模型进行了比较：

F1 - 精确率 - 召回率	roberta-base-biomedical-clinical-es	mBERT	BETO
PharmaCoNER	90.04 - 88.92 - 91.18	87.46 - 86.50 - 88.46	88.18 - 87.12 - 89.28
CANTEMIST	83.34 - 81.48 - 85.30	82.61 - 81.12 - 84.15	82.42 - 80.91 - 84.00
ICTUSnet	88.08 - 84.92 - 91.50	86.75 - 83.53 - 90.23	85.95 - 83.10 - 89.02

🔧 技术细节

📄 许可证

本项目采用 Apache License, Version 2.0 许可证。

作者

巴塞罗那超级计算中心的文本挖掘单元 (TeMU) (bsc-temu@bsc.es)

联系信息

如需更多信息，请发送电子邮件至 plantl-gob-es@bsc.es

版权

版权归西班牙数字化和人工智能国务秘书处 (SEDIA) 所有 (2022)

资金支持

这项工作由西班牙数字化和人工智能国务秘书处 (SEDIA) 在 Plan-TL 框架内提供资金支持。

引用信息

如果您使用我们的模型，请引用我们的最新预印本：

@misc{carrino2021biomedical,
      title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
      year={2021},
      eprint={2109.03570},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

如果您使用我们的 Medical Crawler 语料库，请引用预印本：

@misc{carrino2021spanish,
      title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models}, 
      author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
      year={2021},
      eprint={2109.07765},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}