🚀 RigoBERTa Clinical
RigoBERTa Clinical 是一款用于西班牙语的先进临床编码器语言模型,它通过在最大的公开可用西班牙语临床语料库 ClinText - SP 上进行领域自适应预训练而开发。该模型显著提升了多个临床自然语言处理基准测试的性能,同时在临床领域提供了强大的语言理解能力。
🚀 快速开始
RigoBERTa Clinical 专为西班牙语临床文本理解而设计,可应用于医疗保健自然语言处理任务,如临床笔记分类、临床文本中的实体识别等相关下游任务,也可用于研究和开发目的,包括基准测试和进一步的模型适配。
✨ 主要特性
- 领域适配:通过在大规模西班牙语临床语料库上进行预训练,能更好地适应临床领域的语言特点。
- 性能提升:在多个临床自然语言处理基准测试中显著提高了性能。
- 语言理解:在临床领域提供强大的语言理解能力。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
📚 详细文档
模型详情
模型描述
RigoBERTa Clinical 是在通用的 RigoBERTa 2 基础上,进一步在精心策划的临床语料库上进行预训练而构建的。预训练采用掩码语言模型(MLM),使模型的语言知识适应西班牙语临床领域。
属性 |
详情 |
开发者 |
IIC |
模型类型 |
编码器 |
语言(NLP) |
西班牙语 |
许可证 |
rigoclinical - nc(宽松的非商业许可) |
微调基础模型 |
RigoBERTa 2 |
模型来源
预期用途与局限性
预期用途
- 西班牙语临床文本理解。
- 医疗保健自然语言处理任务的应用,如临床笔记分类、临床文本中的实体识别及相关下游任务。
- 研究和开发目的,包括基准测试和进一步的模型适配。
局限性与注意事项
- 领域特异性:尽管该模型对西班牙语临床文本非常有效,但可能无法推广到其他领域或语言。
- 数据偏差:ClinText - SP 虽然是可用的最大语料库,但由于来源选择和公共临床数据的固有局限性,可能存在偏差。
- 运营成本:尽管与生成式大语言模型相比,基于编码器的模型计算成本相对较低,但在资源受限的环境中部署时仍需仔细评估。
训练详情
训练数据:ClinText - SP
ClinText - SP 是最大的开放西班牙语临床语料库,包含来自各种开放源的数据:
- 规模:约 2600 万个标记,35996 个样本
- 样本详情:每个样本平均约 700 个标记;包含长篇临床病例和较短的示意图文本
- 来源:医学期刊、临床共享任务、放射学报告和维基百科摘录
- 可用性:[ClinText - SP](https://huggingface.co/datasets/IIC/ClinText - SP) 于 Hugging Face Datasets
训练过程
预处理
- 分词器:使用 RigoBERTa 2 的分词器,以确保与基础模型的一致性。
- 长序列处理:超过 512 个标记的临床文本以 128 个标记的步长进行分割;必要时对较短序列进行填充。
- 未登录词处理:使用子词分词处理未登录词,保持对临床术语的强大处理能力。
训练详情
- 目标:掩码语言模型(MLM)
- 轮数:2 个完整轮次(根据下游性能,在约 1.8 轮后选择最佳模型)
- 超参数网格:
- 批次大小:32、64、128
- 学习率:批次大小为 32 时为 {5e - 6, 1e - 5, 2e - 5};批次大小为 64 时为 {1e - 5, 2e - 5, 4e - 5};批次大小为 128 时为 {1e - 5, 4e - 5, 8e - 5}
- 最佳设置:批次大小 = 32,学习率 = 2e - 5,约 2800 个训练步骤(约 1.8 轮)
- 优化器:AdamW,权重衰减为 0.1
- 硬件:在单个 NVIDIA A100 GPU(80GB 内存)上训练
评估
RigoBERTa Clinical 在多个西班牙语临床自然语言处理任务上进行了评估,包括命名实体识别(NER)和多标签分类。评估指标(F1 分数和微平均 F1)表明,该模型优于以前的临床和通用西班牙语语言模型。
- 关键结果:
- 在 cantemist、meddocan 和 livingner1 等数据集上取得了最佳性能。
- 始终超越仅在临床数据上训练的模型,证明了在领域适配过程中利用通用领域知识的优势。
- 相关出版物中提供了详细的基准测试结果和比较。
如需完整的结果明细(包括在多语言基线和其他特定临床模型上的性能),请参考原文中的表 1 和 Nemenyi 图。

引用
如果您在研究中使用了 RigoBERTa Clinical,请引用相关论文:
BibTeX:
@misc{subies2025clintextsprigobertaclinicalnew,
title={ClinText - SP and RigoBERTa Clinical: a new set of open resources for Spanish Clinical NLP},
author={Guillem García Subies and Álvaro Barbero Jiménez and Paloma Martínez Fernández},
year={2025},
eprint={2503.18594},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.18594},
}
APA:
Subies, G. G., Barbero Jiménez, Á., & Martínez Fernández, P. (2025). ClinText - SP and RigoBERTa Clinical: A new set of open resources for Spanish Clinical NLP. arXiv. https://arxiv.org/abs/2503.18594
模型卡片作者与联系方式
Guillem García Subies:guillem.garcia@iic.uam.es,100500844@alumnos.uc3m.es
📄 许可证
本模型使用的许可证为 rigoclinical - nc(宽松的非商业许可),详情请见 [许可证链接](https://huggingface.co/IIC/RigoBERTa - Clinical/blob/main/LICENSE)。