🚀 medBERT.de:适用于医疗领域的全面德语BERT模型
medBERT.de 是一个基于BERT架构的德语医疗自然语言处理模型,它在大量的医疗文本、临床笔记、研究论文和医疗相关文档数据集上进行了专门的训练和微调。该模型旨在执行医疗领域的各种自然语言处理任务,如医疗信息提取、诊断预测等。
📚 详细文档
🔧 架构
medBERT.de 基于标准的BERT架构,如原始BERT论文(Devlin等人的 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”)中所述。该模型采用了多层双向Transformer编码器,使其能够从输入文本的左右两个方向捕获上下文信息。medBERT.de 有12层,每层有768个隐藏单元,每层有8个注意力头,并且可以在单个输入序列中处理多达512个标记。
📦 训练数据
medBERT.de 在大量的医疗文本、临床笔记、研究论文和医疗相关文档数据集上进行了微调。这种多样化的数据集确保了模型熟悉各种医疗子领域,并能处理广泛的医疗自然语言处理任务。
以下表格概述了用于预训练 medBERT.de 的数据来源:
来源 |
文档数量 |
句子数量 |
单词数量 |
大小 (MB) |
DocCheck Flexikon |
63,840 |
720,404 |
12,299,257 |
92 |
GGPOnc 1.0 |
4,369 |
66,256 |
1,194,345 |
10 |
Webcrawl |
11,322 |
635,806 |
9,323,774 |
65 |
PubMed摘要 |
12,139 |
108,936 |
1,983,752 |
16 |
放射学报告 |
3,657,801 |
60,839,123 |
520,717,615 |
4,195 |
Spinger Nature |
257,999 |
14,183,396 |
259,284,884 |
1,986 |
电子健康记录 |
373,421 |
4,603,461 |
69,639,020 |
440 |
博士论文 |
7,486 |
4,665,850 |
90,380,880 |
648 |
Thieme Publishing Group |
330,994 |
10,445,580 |
186,200,935 |
2,898 |
维基百科 |
3,639 |
161,714 |
2,799,787 |
22 |
总计 |
4,723,010 |
96,430,526 |
1,153,824,249 |
10,372 |
所有训练数据都经过了完全匿名化处理,并且删除了所有患者相关信息。
🛠️ 预处理
输入文本使用WordPiece分词技术进行预处理,该技术将文本分解为子词单元,以更好地捕获罕见或未登录词。我们保留了大小写格式,并且没有从文本中删除特殊字符。medBERT.de 配备了专门为德语医疗语言优化的分词器。
📊 性能指标
我们在各种下游任务上对 medBERT.de 进行了微调,并将其与德语医疗领域的其他先进BERT模型进行了比较。以下是基于放射学报告的分类任务的一些示例结果。更多详细结果请参考我们的论文。
模型 |
AUROC |
宏F1值 |
微F1值 |
精确率 |
召回率 |
胸部CT |
|
|
|
|
|
GottBERT |
92.48 |
69.06 |
83.98 |
76.55 |
65.92 |
BioGottBERT |
92.71 |
69.42 |
83.41 |
80.67 |
65.52 |
多语言BERT |
91.90 |
66.31 |
80.86 |
68.37 |
65.82 |
German - MedBERT |
92.48 |
66.40 |
81.41 |
72.77 |
62.37 |
medBERT.de |
96.69 |
81.46 |
89.39 |
87.88 |
78.77 |
medBERT.dededup |
96.39 |
78.77 |
89.24 |
84.29 |
76.01 |
胸部X光 |
|
|
|
|
|
GottBERT |
83.18 |
64.86 |
74.18 |
59.67 |
78.87 |
BioGottBERT |
83.48 |
64.18 |
74.87 |
59.04 |
78.90 |
多语言BERT |
82.43 |
63.23 |
73.92 |
56.67 |
75.33 |
German - MedBERT |
83.22 |
63.13 |
75.39 |
55.66 |
78.03 |
medBERT.de |
84.65 |
67.06 |
76.20 |
60.44 |
83.08 |
medBERT.dededup |
84.42 |
66.92 |
76.26 |
60.31 |
82.99 |
⚖️ 公平性和偏差
🌍 地理偏差
由于大量临床数据来自德国柏林的一家医院,该模型可能会偏向于该特定地区流行的医疗实践、术语和疾病。当应用于具有不同医疗系统和患者群体的其他地区或国家时,这可能会导致性能和公平性下降。
🧑🤝🧑 人口统计学偏差
柏林医院的患者群体可能不能代表更广泛的德国或全球人口。年龄、性别、种族和社会经济地位的差异可能导致模型在预测和理解某些特定人口群体中更常见的医疗状况、症状或治疗方法时产生偏差。
🏥 专业偏差
大部分训练数据由放射学报告组成,这可能会使模型偏向于放射学中使用的语言和概念。这可能导致对训练数据中代表性不足的其他医学专业或子领域的理解不够准确。
🔒 安全和隐私
🤐 匿名化
为确保 medBERT.de 在训练和使用过程中的数据隐私,已采取了多项措施。用于训练模型的所有临床数据都经过了彻底的匿名化处理,删除了患者姓名和其他个人身份信息(PII),以保护患者隐私。尽管某些数据源(如DocCheck)可能包含著名医生的姓名或在DocCheck平台上发表演讲的个人姓名,但这些实例与患者数据无关,不应构成重大隐私风险。然而,有可能从模型中提取这些姓名。
所有训练数据都安全存储,不会公开访问。但是,我们将提供一些用于医学基准测试的训练数据。
🛡️ 模型安全
MedBERT在设计时考虑了安全性,以最大限度地减少与对抗攻击和信息泄露相关的风险。我们对模型进行了信息泄露测试,未发现数据泄露的证据。然而,与任何机器学习模型一样,无法保证对潜在攻击的完全安全。
⚠️ 局限性
- 泛化能力:medBERT.de 可能难以处理训练数据集中未包含的医学术语或概念,特别是新的或罕见的疾病、治疗方法和程序。
- 语言偏差:medBERT.de 主要在德语数据上进行训练,对于非德语或多语言环境,其性能可能会显著下降。
- 上下文误解:medBERT.de 偶尔可能会误解文本的上下文,导致错误的预测或提取的信息不准确。
- 信息验证能力:medBERT.de 无法验证其处理信息的准确性,因此不适合对数据验证至关重要的任务。
- 法律和伦理考虑:该模型不应用于做出或参与医疗决策,仅应用于研究目的。
📄 许可证
本项目采用Apache-2.0许可证。
📜 使用条款
通过从Hugging Face Hub下载和使用MedBERT模型,您同意遵守以下条款和条件:
🎯 目的和范围
MedBERT模型仅用于研究和信息目的,不得作为做出医疗决策或诊断患者的唯一依据。该模型应作为专业医疗建议和临床判断的补充工具使用。
🤝 正确使用
用户同意以负责任的方式使用MedBERT,遵守所有适用的法律、法规和道德准则。该模型不得用于任何非法、有害或恶意目的。不得将该模型用于临床决策和患者治疗。
🔒 数据隐私和安全
用户负责确保使用MedBERT模型处理的任何敏感或机密数据的隐私和安全。在使用模型处理之前,个人身份信息(PII)应进行匿名化处理,并且用户必须采取适当措施保护数据隐私。
🚫 禁止活动
严禁用户尝试进行对抗攻击、信息检索或任何可能损害MedBERT模型安全和完整性的其他操作。违规者可能会面临法律后果,并可能导致模型发布被撤回。
通过下载和使用MedBERT模型,您确认已阅读、理解并同意遵守这些使用条款。
⚠️ 法律免责声明
使用 medBERT.de 即表示您同意不尝试对模型进行对抗攻击或信息检索。此类活动严格禁止,构成违反使用条款。违规者可能会面临法律后果,任何发现的违规行为可能导致模型发布立即撤回。继续使用 medBERT.de 即表示您承认并接受遵守这些条款和条件的责任。
📝 引用
@article{medbertde,
title={MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain},
author={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann and Florian Borchert and Lisa C. Adams and Leonhard Liu and Felix Busch and Lina Xu and Jan P. Loyen and Stefan M. Niehues and Moritz Augustin and Lennart Grosser and Marcus R. Makowski and Hugo JWL. Aerts and Alexander Löser},
journal={arXiv preprint arXiv:2303.08179},
year={2023},
url={https://doi.org/10.48550/arXiv.2303.08179},
note={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann contributed equally},
subject={Computation and Language (cs.CL); Artificial Intelligence (cs.AI)},
}