Roberta Base Biomedical Clinical Es
模型简介
模型特点
模型能力
使用案例
🚀 西班牙语生物医学临床语言模型
本项目是一个西班牙语生物医学预训练语言模型,可用于掩码语言建模任务,也可在下游任务(如命名实体识别或文本分类)中进行微调。
🚀 快速开始
本模型可直接用于掩码语言建模以执行填充掩码任务(可以尝试推理 API 或阅读后续部分)。不过,它也可用于在下游任务(如命名实体识别或文本分类)中进行微调。
✨ 主要特性
- 基于 RoBERTa 架构,在西班牙语生物医学临床语料库上进行预训练。
- 可直接用于填充掩码任务,也可在下游任务中进行微调。
📦 安装指南
文档中未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
model = AutoModelForMaskedLM.from_pretrained("BSC-TeMU/roberta-base-biomedical-es")
from transformers import pipeline
unmasker = pipeline('fill-mask', model="BSC-TeMU/roberta-base-biomedical-es")
unmasker("El único antecedente personal a reseñar era la <mask> arterial.")
# 输出
[
{
"sequence": " El único antecedente personal a reseñar era la hipertensión arterial.",
"score": 0.9855039715766907,
"token": 3529,
"token_str": " hipertensión"
},
{
"sequence": " El único antecedente personal a reseñar era la diabetes arterial.",
"score": 0.0039140828885138035,
"token": 1945,
"token_str": " diabetes"
},
{
"sequence": " El único antecedente personal a reseñar era la hipotensión arterial.",
"score": 0.002484665485098958,
"token": 11483,
"token_str": " hipotensión"
},
{
"sequence": " El único antecedente personal a reseñar era la Hipertensión arterial.",
"score": 0.0023484621196985245,
"token": 12238,
"token_str": " Hipertensión"
},
{
"sequence": " El único antecedente personal a reseñar era la presión arterial.",
"score": 0.0008009297889657319,
"token": 2267,
"token_str": " presión"
}
]
📚 详细文档
模型描述
这是一个用于西班牙语的生物医学预训练语言模型。该模型基于 RoBERTa 架构,在从多个来源收集的西班牙语生物医学临床语料库上进行训练。
预期用途和限制
该模型仅可直接用于掩码语言建模以执行填充掩码任务(尝试推理 API 或阅读下一节)。不过,它旨在在下游任务(如命名实体识别或文本分类)中进行微调。
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。然而,我们深知由于语料库是使用爬虫技术从多个网络来源收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果完成研究,此模型卡片将进行更新。
训练
训练语料库使用了 Byte-Pair Encoding (BPE) 的字节版本进行分词,这与原始 RoBERTa 模型中使用的方法相同,词汇量为 52,000 个标记。预训练包括在子词级别进行掩码语言模型训练,遵循 RoBERTa 基础模型采用的方法,并使用与原始工作相同的超参数。训练总共持续了 48 小时,使用了 16 个 16GB DDRAM 的 NVIDIA V100 GPU,采用 Adam 优化器,峰值学习率为 0.0005,有效批量大小为 2,048 个句子。
训练语料库由几个西班牙语生物医学语料库组成,这些语料库来自公开可用的语料库和爬虫,以及从超过 278,000 份临床文档和笔记中收集的真实临床语料库。为了获得高质量的训练语料库,同时保留临床语言的特点,仅对生物医学语料库应用了清理流程,而临床语料库保持未清理状态。本质上,使用的清理操作包括:
- 不同格式的数据解析
- 句子分割
- 语言检测
- 格式错误句子的过滤
- 重复内容的去重
- 保留原始文档边界
然后,将生物医学语料库进行连接,并在生物医学语料库之间进行进一步的全局去重。最终,将临床语料库连接到清理后的生物医学语料库,形成一个包含超过 10 亿个标记的中等规模西班牙语生物医学临床语料库。下表显示了各个清理后语料库的一些基本统计信息:
名称 | 标记数量 | 描述 |
---|---|---|
Medical crawler | 745,705,946 | 对属于西班牙语生物医学和健康领域的 3000 多个 URL 进行爬取的结果。 |
临床病例杂项 | 102,855,267 | 各种医学内容,主要是临床病例。请注意,临床病例报告是医学从业者分享患者病例的科学出版物,与临床笔记或文档不同。 |
临床笔记/文档 | 91,250,080 | 收集了超过 278,000 份临床文档,包括出院报告、临床病程记录和 X 光报告,总共包含 9100 万个标记。 |
Scielo | 60,007,289 | 2017 年从西班牙 SciELO 服务器爬取的西班牙语出版物。 |
BARR2_background | 24,516,442 | 生物医学缩写识别和解析 (BARR2),包含来自各种临床学科的西班牙语临床病例研究部分。 |
维基百科生命科学 | 13,890,501 | 2021 年 4 月 1 日使用 Wikipedia API python 库 从“Ciencias_de_la_vida”类别开始爬取的维基百科文章,最多爬取 5 个子类别。然后丢弃指向同一文章的多个链接,以避免重复内容。 |
专利 | 13,463,387 | 西班牙医学领域的谷歌专利(西班牙语)。专利 Json 文件接受的代码(医学领域)为:"A61B"、"A61C"、"A61F"、"A61H"、"A61K"、"A61L"、"A61M"、"A61B"、"A61P"。 |
EMEA | 5,377,448 | 从欧洲药品管理局的 PDF 文档组成的平行语料库中提取的西班牙语文档。 |
mespen_Medline | 4,166,077 | 从一个由生物医学科学文献组成的西班牙语 - 英语平行语料库中提取的西班牙语文章。平行资源的集合来自 MedlinePlus 来源。 |
PubMed | 1,858,966 | 2017 年从 PubMed 存储库爬取的开放获取文章。 |
评估
该模型在命名实体识别 (NER) 任务上使用以下数据集进行了评估:
- PharmaCoNER:是一个从西班牙语医学文本中识别化学和药物提及的任务(更多信息请参阅:https://temu.bsc.es/pharmaconer/)。
- CANTEMIST:是一个专门关注西班牙语肿瘤形态命名实体识别的共享任务(更多信息请参阅:https://zenodo.org/record/3978041#.YTt5qH2xXbQ)。
- ICTUSnet:由来自 18 家不同西班牙医院的 1,006 份中风患者出院报告组成。它包含 51 种不同类型变量的超过 79,000 个注释。
F1 - 精确率 - 召回率 | roberta-base-biomedical-clinical-es | mBERT | BETO |
---|---|---|---|
PharmaCoNER | 90.04 - 88.92 - 91.18 | 87.46 - 86.50 - 88.46 | 88.18 - 87.12 - 89.28 |
CANTEMIST | 83.34 - 81.48 - 85.30 | 82.61 - 81.12 - 84.15 | 82.42 - 80.91 - 84.00 |
ICTUSnet | 88.08 - 84.92 - 91.50 | 86.75 - 83.53 - 90.23 | 85.95 - 83.10 - 89.02 |
🔧 技术细节
训练语料库使用了 Byte-Pair Encoding (BPE) 的字节版本进行分词,这与原始 RoBERTa 模型中使用的方法相同,词汇量为 52,000 个标记。预训练包括在子词级别进行掩码语言模型训练,遵循 RoBERTa 基础模型采用的方法,并使用与原始工作相同的超参数。训练总共持续了 48 小时,使用了 16 个 16GB DDRAM 的 NVIDIA V100 GPU,采用 Adam 优化器,峰值学习率为 0.0005,有效批量大小为 2,048 个句子。
📄 许可证
本项目采用 Apache License, Version 2.0 许可证。
作者
巴塞罗那超级计算中心的文本挖掘单元 (TeMU) (bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es
版权
版权归西班牙数字化和人工智能国务秘书处 (SEDIA) 所有 (2022)
资金支持
这项工作由西班牙数字化和人工智能国务秘书处 (SEDIA) 在 Plan-TL 框架内提供资金支持。
引用信息
如果您使用我们的模型,请引用我们的最新预印本:
@misc{carrino2021biomedical,
title={Biomedical and Clinical Language Models for Spanish: On the Benefits of Domain-Specific Pretraining in a Mid-Resource Scenario},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Asier Gutiérrez-Fandiño and Joan Llop-Palao and Marc Pàmies and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2109.03570},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
如果您使用我们的 Medical Crawler 语料库,请引用预印本:
@misc{carrino2021spanish,
title={Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models},
author={Casimiro Pio Carrino and Jordi Armengol-Estapé and Ona de Gibert Bonet and Asier Gutiérrez-Fandiño and Aitor Gonzalez-Agirre and Martin Krallinger and Marta Villegas},
year={2021},
eprint={2109.07765},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为这些模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者(SEDIA - 西班牙数字化和人工智能国务秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。



