🚀 EriBERTa
EriBERTa是一个经过预训练的双语特定领域语言模型,在大量医学和临床语料库上进行训练。它在临床领域的表现优于以往的西班牙语语言模型,展现出强大的医学文本理解和信息提取能力。此外,EriBERTa还具备出色的迁移学习能力,可实现跨语言的知识迁移,这对于西班牙语临床数据稀缺的情况尤为有利。
🚀 快速开始
你可以使用以下代码加载模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("HiTZ/EriBERTa-base")
model = AutoModelForMaskedLM.from_pretrained("HiTZ/EriBERTa-base")
📚 详细文档
模型描述
- 开发者:Iker De la Iglesia、Aitziber Atutxa、Koldo Gojenola和Ander Barrena
- 联系方式:Iker De la Iglesia 和 Ander Barrena
- 支持语言(NLP):英语、西班牙语
- 许可证:apache - 2.0
- 资助来源:
- 西班牙科学与创新部,MCIN/AEI/ 10.13039/501100011033/FEDER项目:
- 2022年知识生成项目(EDHIA PID2022 - 136522OB - C22)
- DOTT - HEALTH/PAT - MED PID2019 - 543106942RB - C31。
- 欧盟NextGeneration EU/PRTR(DeepR3 TED2021 - 130295B - C31,ANTIDOTE PCI2020 - 120717 - 2欧盟ERA - Net CHIST - ERA)。
- 巴斯克政府:
模型详情
属性 |
详情 |
模型参数数量 |
~1.25亿 |
词汇表大小 |
6.4万 |
序列长度 |
512 |
每步处理的词元数 |
200万 |
训练步数 |
12.5万 |
总词元数 |
45亿 |
学习率调度器 |
带热身的线性调度器 |
峰值学习率 |
2.683e - 4 |
热身步数 |
7500 |
训练数据
语言 |
来源 |
单词数 |
英语 |
ClinicalTrials |
1.274亿 |
英语 |
EMEA |
1200万 |
英语 |
PubMed |
9.684亿 |
英语 |
MIMIC - III |
2.06亿 |
西班牙语 |
EMEA |
1360万 |
西班牙语 |
PubMed |
840万 |
西班牙语 |
Medical Crawler |
9.18亿 |
西班牙语 |
SPACC |
35万 |
西班牙语 |
UFAL |
1050万 |
西班牙语 |
WikiMed |
520万 |
局限性和偏差
⚠️ 重要提示
EriBERTa目前针对掩码语言建模进行了优化,用于执行填空任务。虽然已经评估了其在下游任务(如命名实体识别和文本分类)上的微调潜力,但建议在将模型部署到生产环境之前,针对特定应用进行验证和测试,以确保其有效性和可靠性。由于医学临床语料库的稀缺性,EriBERTa模型是在从多个来源收集的语料库上进行训练的,包括网络爬取的数据。因此,所使用的语料库可能无法涵盖临床语言中所有可能的语言和上下文变化。因此,当模型应用于特定临床子领域或训练数据中未充分体现的罕见医疗状况时,可能会表现出局限性。
偏差情况
- 数据收集偏差:EriBERTa的训练数据来自多个来源,部分使用了网络爬取技术。这种方法可能会引入与某些类型的内容、观点和语言使用模式的普遍性相关的偏差。因此,模型可能会在其预测中反映并传播这些偏差。
- 人口统计学和语言偏差:由于网络来源的语料库可能无法平等地代表所有人口群体或语言细微差别,模型可能对某些人群的表现明显优于其他人群。这可能导致不同患者群体在临床数据处理和信息检索质量上存在差异。
- 未审查的伦理问题:截至目前,尚未采取全面措施来系统评估EriBERTa中嵌入的伦理影响和偏差。虽然我们致力于解决这些问题,但当前版本的模型可能会无意中延续数据中固有的现有偏差和伦理问题。
免责声明
⚠️ 重要提示
EriBERTa并非设计或开发用作医疗设备。任何输出都应由医疗专业人员进行验证,不得直接用于诊断。模型的输出可能并不总是完全可靠。由于语言模型的性质,预测可能会出现错误或偏差。我们不对该模型的使用承担任何责任,理想情况下,应在应用前对其进行微调测试。在未经合格专业人员彻底验证和监督的情况下,不得将其用作医疗工具或用于任何关键决策过程。
引用信息
@misc{delaiglesia2023eriberta,
title={{EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing}},
author={Iker De la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander Barrena},
year={2023},
eprint={2306.07373},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
论文链接