🚀 西班牙语生物医学语言模型
本项目是一个西班牙语生物医学预训练语言模型,可用于掩码语言建模任务,也可在下游任务中进行微调,为生物医学领域的自然语言处理提供支持。
🚀 快速开始
你可以通过以下方式使用该模型:
在推理API中尝试,或参考后续章节的使用说明。
✨ 主要特性
- 特定领域适配:专为西班牙语生物医学领域设计,能更好地处理该领域的文本。
- 多任务支持:可用于掩码语言建模任务,也可在命名实体识别、文本分类等下游任务中进行微调。
📦 安装指南
文档未提及安装步骤,暂无法提供。
💻 使用示例
基础用法
文档未提供基础用法的代码示例,暂无法提供。
高级用法
文档未提供高级用法的代码示例,暂无法提供。
📚 详细文档
模型描述
这是一个用于西班牙语的生物医学预训练语言模型。有关语料库、预训练和评估的更多详细信息,请查看官方 仓库。
预期用途和限制
该模型仅适用于掩码语言建模,以执行填充掩码任务(可尝试推理API或阅读下一部分)。不过,它旨在在命名实体识别或文本分类等下游任务上进行微调。
局限性和偏差
在提交时,尚未采取措施来估计模型中嵌入的偏差。然而,我们深知由于语料库是通过在多个网络源上进行爬取技术收集的,我们的模型可能存在偏差。我们打算在未来对这些领域进行研究,如果完成,此模型卡片将进行更新。
训练
分词和模型预训练
此模型是一个基于 RoBERTa 的模型,在从多个来源收集的西班牙语 生物医学 语料库上进行训练(见下一节)。
训练语料库使用了 字节对编码(BPE) 的字节版本进行分词,这与原始 RoBERTA 模型中使用的方法相同,词汇量为52,000个标记。预训练包括在子词级别进行掩码语言模型训练,采用了与RoBERTa基础模型相同的方法和超参数。训练总共持续了48小时,使用了16个16GB DDRAM的NVIDIA V100 GPU,采用Adam优化器,峰值学习率为0.0005,有效批量大小为2,048个句子。
训练语料库和预处理
训练语料库由多个西班牙语生物医学语料库组成,这些语料库是从公开可用的语料库和爬虫中收集的。
为了获得高质量的训练语料库,应用了一个包含以下操作的清理流程:
- 不同格式的数据解析
- 句子分割
- 语言检测
- 过滤格式错误的句子
- 去重重复内容
- 保留原始文档边界
最后,将语料库进行拼接,并在语料库之间进行进一步的全局去重。
结果是一个中等规模的西班牙语生物医学语料库,约由9.63亿个标记组成。下表显示了各个清理后语料库的一些基本统计信息:
属性 |
详情 |
模型类型 |
基于RoBERTa的西班牙语生物医学预训练语言模型 |
训练数据 |
由多个西班牙语生物医学语料库组成,包括Medical crawler、Clinical cases misc.、Scielo等,约9.63亿个标记 |
名称 |
标记数量 |
描述 |
Medical crawler |
903,558,136 |
对属于西班牙语生物医学和健康领域的3000多个URL进行爬取的结果 |
Clinical cases misc. |
102,855,267 |
各种医学内容的杂项,主要是临床病例 |
Scielo |
60,007,289 |
2017年从西班牙SciELO服务器爬取的西班牙语出版物 |
BARR2_background |
24,516,442 |
包含来自各种临床学科的西班牙语临床案例研究部分的生物医学缩写识别和解析(BARR2) |
Wikipedia_life_sciences |
13,890,501 |
2021年1月4日使用 Wikipedia API python库 从“Ciencias_de_la_vida”类别开始爬取的维基百科文章,最多到5个子类别 |
Patents |
13,463,387 |
西班牙医学领域的谷歌专利,接受的专利JSON文件代码为:“A61B”、“A61C”、“A61F”、“A61H”、“A61K”、“A61L”、“A61M”、“A61B”、“A61P” |
EMEA |
5,377,448 |
从欧洲药品管理局的PDF文档组成的平行语料库中提取的西班牙语文档 |
mespen_Medline |
4,166,077 |
从西班牙语 - 英语平行语料库集合中提取的西班牙语文章,该集合来自MedlinePlus源 |
PubMed |
1,858,966 |
2017年从PubMed存储库爬取的开放获取文章 |
评估
该模型在三个命名实体识别(NER)任务上进行了微调,使用了三个临床NER数据集:
- PharmaCoNER:是一个从西班牙语医学文本中识别化学和药物提及的任务(更多信息请见:https://temu.bsc.es/pharmaconer/)。
- CANTEMIST:是一个专门关注西班牙语肿瘤形态命名实体识别的共享任务(更多信息请见:https://zenodo.org/record/3978041#.YTt5qH2xXbQ)。
- ICTUSnet:由来自18家不同西班牙医院的1006份中风患者出院报告组成,包含超过79,000个注释,涉及51种不同类型的变量。
我们将NER任务作为一个标记分类问题,使用标准的线性层和BIO标记模式。我们将我们的模型与通用领域的西班牙语 roberta-base-bne、支持西班牙语的通用领域多语言模型 mBERT、特定领域的英语模型 BioBERT 以及三个基于持续预训练的特定领域模型 mBERT-Galén、XLM-R-Galén 和 BETO-Galén 进行了比较。
下表显示了获得的F1分数:
任务/模型 |
bsc-bio-es |
XLM-R-Galén |
BETO-Galén |
mBERT-Galén |
mBERT |
BioBERT |
roberta-base-bne |
PharmaCoNER |
0.8907 |
0.8754 |
0.8537 |
0.8594 |
0.8671 |
0.8545 |
0.8474 |
CANTEMIST |
0.8220 |
0.8078 |
0.8153 |
0.8168 |
0.8116 |
0.8070 |
0.7875 |
ICTUSnet |
0.8727 |
0.8716 |
0.8498 |
0.8509 |
0.8631 |
0.8521 |
0.8677 |
微调脚本可以在官方GitHub 仓库 中找到。
附加信息
作者
巴塞罗那超级计算中心的文本挖掘单元(TeMU)(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至 plantl-gob-es@bsc.es
版权
版权归西班牙数字化和人工智能秘书处(SEDIA)所有(2022年)
许可信息
Apache许可证,版本2.0
资金支持
这项工作由西班牙数字化和人工智能秘书处(SEDIA)在Plan-TL框架内资助。
引用信息
如果您使用这些模型,请引用我们的工作:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{\`a}mies, Marc and
Guti{\'e}rrez-Fandi{\~n}o, Asier and
Armengol-Estap{\'e}, Jordi and
Silveira-Ocampo, Joaqu{\'\i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
免责声明
本仓库中发布的模型旨在用于通用目的,并可供第三方使用。这些模型可能存在偏差和/或其他不良扭曲。
当第三方使用这些模型(或基于这些模型的系统)部署或向其他方提供系统和/或服务,或成为模型的用户时,他们应注意,减轻使用这些模型带来的风险并遵守适用法规(包括有关人工智能使用的法规)是他们的责任。
在任何情况下,模型的所有者(SEDIA - 数字化和人工智能秘书处)和创建者(BSC - 巴塞罗那超级计算中心)均不对第三方使用这些模型产生的任何结果负责。