🚀 MediAlbertina
MediAlbertina是首个使用真实欧洲葡萄牙语数据训练的公开可用医学语言模型。它基于DeBERTaV2架构,是Bert家族的编码器,通过对PORTULAN的Albertina模型进行持续预训练,并结合葡萄牙最大公立医院共享的电子病历数据而得到。
🚀 快速开始
MediAlbertina模型可用于医学领域的信息提取任务,如命名实体识别(NER)和断言状态(AStatus)。以下是使用该模型进行掩码填充的示例代码:
from transformers import pipeline
unmasker = pipeline('fill-mask', model='portugueseNLP/medialbertina_pt-pt_900m')
unmasker("Analgesia com morfina em perfusão (15 [MASK]/kg/h)")
✨ 主要特性
- 领域适配:MediAlbertina PT - PT 900M通过掩码语言建模,在真实的欧洲葡萄牙语电子病历上对Albertina PT - PT 900M进行领域适配。
- 性能优越:在信息提取任务(NER和AStatus)上,MediAlbertina取得了比其前身更优的结果,展示了领域适配的有效性以及在葡萄牙医学人工智能领域的潜力。
📚 详细文档
模型描述
MediAlbertina PT - PT 900M在超过1500万句话和3亿个标记上进行训练,这些数据来自葡萄牙最大公立医院的260万份完全匿名且唯一的电子病历(EMRs)。该数据是在FCT项目DSAIPA/AI/0122/2020 AIMHealth - 基于人工智能的移动健康应用的框架下获取的。
模型在信息提取(IE)任务中的性能表现如下:
模型 |
单模型NER F1分数 |
多模型NER F1分数 |
断言状态F1分数 |
albertina - 900m - portuguese - ptpt - encoder |
0.813 |
0.811 |
0.687 |
medialbertina_pt - pt_900m |
0.832 |
0.848 |
0.755 |
数据
MediAlbertina PT - PT 900M的训练数据来自葡萄牙最大公立医院的电子病历,包含超过1500万句话和3亿个标记,这些数据已完全匿名化。
引用
MediAlbertina由来自葡萄牙[ISCTE - IUL](https://www.iscte - iul.pt/)和美国加利福尼亚州Select Data的联合团队开发。如需详细描述,请查阅相关出版物:
@article{MediAlbertina PT-PT,
title={MediAlbertina: An European Portuguese medical language model},
author={Miguel Nunes and João Boné and João Ferreira
and Pedro Chaves and Luís Elvas},
year={2024},
journal={CBM},
volume={182}
url={https://doi.org/10.1016/j.compbiomed.2024.109233}
}
在使用或引用此模型时,请使用上述规范引用。
致谢
这项工作得到了“Blockchain.PT – Decentralize Portugal with Blockchain Agenda”项目(项目编号51,WP2,Call no 02/C05 - i01.01/2022)的资助,该项目由葡萄牙复苏与韧性计划(PRR)、葡萄牙共和国和欧盟在下一代欧盟计划框架下提供资金支持。
📄 许可证
和其前身一样,MediAlbertina模型遵循MIT许可证进行分发。