medbert-512-no-duplicates开源德语医学模型 - 支持医疗领域多种语言处理任务

首页

Medbert 512 No Duplicates

由 GerMedBERT 开发

medBERT.de是基于BERT架构的德语医学自然语言处理模型，专门针对大量医学文本进行了微调训练，适用于医疗领域的多种NLP任务。

大型语言模型

Transformers

德语开源协议:Apache-2.0 #德语医疗NLP #放射学报告分析 #临床文本处理

下载量 16.71k

发布时间 : 11/30/2022

模型简介

该模型设计用于执行医疗领域的多种NLP任务，如医学信息提取、诊断预测等，基于标准BERT架构，采用多层双向Transformer编码器。

模型特点

医疗领域专业化

在大量医学文本、临床记录、研究论文和医疗相关文档上进行了微调，精通各类医学子领域。

高性能

在多项下游任务上表现优异，如放射学报告分类任务中AUROC达到96.69，显著优于其他同类模型。

数据隐私保护

所有训练数据均经过完全匿名化处理，患者相关上下文信息已全部移除。

定制分词器

配备了专为德语医疗语言优化的定制分词器，采用WordPiece分词技术。

模型能力

医学信息提取

诊断预测

医疗文本分类

临床记录分析

使用案例

医疗诊断

放射学报告分析

分析胸部CT和X光报告，辅助诊断

在胸部CT分类任务中AUROC达到96.69，宏F1达到81.46

医学研究

医学文献处理

处理和分析医学研究论文和摘要

🚀 medBERT.de：适用于医疗领域的全面德语BERT模型

medBERT.de 是一个基于BERT架构的德语医疗自然语言处理模型，它在大量的医疗文本、临床笔记、研究论文和医疗相关文档数据集上进行了专门的训练和微调。该模型旨在执行医疗领域的各种自然语言处理任务，如医疗信息提取、诊断预测等。

📚 详细文档

🔧 架构

medBERT.de 基于标准的BERT架构，如原始BERT论文（Devlin等人的 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”）中所述。该模型采用了多层双向Transformer编码器，使其能够从输入文本的左右两个方向捕获上下文信息。medBERT.de 有12层，每层有768个隐藏单元，每层有8个注意力头，并且可以在单个输入序列中处理多达512个标记。

📦 训练数据

medBERT.de 在大量的医疗文本、临床笔记、研究论文和医疗相关文档数据集上进行了微调。这种多样化的数据集确保了模型熟悉各种医疗子领域，并能处理广泛的医疗自然语言处理任务。

以下表格概述了用于预训练 medBERT.de 的数据来源：

来源	文档数量	句子数量	单词数量	大小 (MB)
DocCheck Flexikon	63,840	720,404	12,299,257	92
GGPOnc 1.0	4,369	66,256	1,194,345	10
Webcrawl	11,322	635,806	9,323,774	65
PubMed摘要	12,139	108,936	1,983,752	16
放射学报告	3,657,801	60,839,123	520,717,615	4,195
Spinger Nature	257,999	14,183,396	259,284,884	1,986
电子健康记录	373,421	4,603,461	69,639,020	440
博士论文	7,486	4,665,850	90,380,880	648
Thieme Publishing Group	330,994	10,445,580	186,200,935	2,898
维基百科	3,639	161,714	2,799,787	22
总计	4,723,010	96,430,526	1,153,824,249	10,372

所有训练数据都经过了完全匿名化处理，并且删除了所有患者相关信息。

🛠️ 预处理

输入文本使用WordPiece分词技术进行预处理，该技术将文本分解为子词单元，以更好地捕获罕见或未登录词。我们保留了大小写格式，并且没有从文本中删除特殊字符。medBERT.de 配备了专门为德语医疗语言优化的分词器。

📊 性能指标

我们在各种下游任务上对 medBERT.de 进行了微调，并将其与德语医疗领域的其他先进BERT模型进行了比较。以下是基于放射学报告的分类任务的一些示例结果。更多详细结果请参考我们的论文。

模型	AUROC	宏F1值	微F1值	精确率	召回率
胸部CT
GottBERT	92.48	69.06	83.98	76.55	65.92
BioGottBERT	92.71	69.42	83.41	80.67	65.52
多语言BERT	91.90	66.31	80.86	68.37	65.82
German - MedBERT	92.48	66.40	81.41	72.77	62.37
medBERT.de	96.69	81.46	89.39	87.88	78.77
medBERT.de_dedup	96.39	78.77	89.24	84.29	76.01
胸部X光
GottBERT	83.18	64.86	74.18	59.67	78.87
BioGottBERT	83.48	64.18	74.87	59.04	78.90
多语言BERT	82.43	63.23	73.92	56.67	75.33
German - MedBERT	83.22	63.13	75.39	55.66	78.03
medBERT.de	84.65	67.06	76.20	60.44	83.08
medBERT.de_dedup	84.42	66.92	76.26	60.31	82.99

⚖️ 公平性和偏差

🌍 地理偏差

由于大量临床数据来自德国柏林的一家医院，该模型可能会偏向于该特定地区流行的医疗实践、术语和疾病。当应用于具有不同医疗系统和患者群体的其他地区或国家时，这可能会导致性能和公平性下降。

🧑‍🤝‍🧑 人口统计学偏差

柏林医院的患者群体可能不能代表更广泛的德国或全球人口。年龄、性别、种族和社会经济地位的差异可能导致模型在预测和理解某些特定人口群体中更常见的医疗状况、症状或治疗方法时产生偏差。

🏥 专业偏差

大部分训练数据由放射学报告组成，这可能会使模型偏向于放射学中使用的语言和概念。这可能导致对训练数据中代表性不足的其他医学专业或子领域的理解不够准确。

🔒 安全和隐私

🤐 匿名化

为确保 medBERT.de 在训练和使用过程中的数据隐私，已采取了多项措施。用于训练模型的所有临床数据都经过了彻底的匿名化处理，删除了患者姓名和其他个人身份信息（PII），以保护患者隐私。尽管某些数据源（如DocCheck）可能包含著名医生的姓名或在DocCheck平台上发表演讲的个人姓名，但这些实例与患者数据无关，不应构成重大隐私风险。然而，有可能从模型中提取这些姓名。

所有训练数据都安全存储，不会公开访问。但是，我们将提供一些用于医学基准测试的训练数据。

🛡️ 模型安全

MedBERT在设计时考虑了安全性，以最大限度地减少与对抗攻击和信息泄露相关的风险。我们对模型进行了信息泄露测试，未发现数据泄露的证据。然而，与任何机器学习模型一样，无法保证对潜在攻击的完全安全。

⚠️ 局限性

泛化能力：medBERT.de 可能难以处理训练数据集中未包含的医学术语或概念，特别是新的或罕见的疾病、治疗方法和程序。
语言偏差：medBERT.de 主要在德语数据上进行训练，对于非德语或多语言环境，其性能可能会显著下降。
上下文误解：medBERT.de 偶尔可能会误解文本的上下文，导致错误的预测或提取的信息不准确。
信息验证能力：medBERT.de 无法验证其处理信息的准确性，因此不适合对数据验证至关重要的任务。
法律和伦理考虑：该模型不应用于做出或参与医疗决策，仅应用于研究目的。

📄 许可证

本项目采用Apache-2.0许可证。

📜 使用条款

通过从Hugging Face Hub下载和使用MedBERT模型，您同意遵守以下条款和条件：

🎯 目的和范围

MedBERT模型仅用于研究和信息目的，不得作为做出医疗决策或诊断患者的唯一依据。该模型应作为专业医疗建议和临床判断的补充工具使用。

🤝 正确使用

用户同意以负责任的方式使用MedBERT，遵守所有适用的法律、法规和道德准则。该模型不得用于任何非法、有害或恶意目的。不得将该模型用于临床决策和患者治疗。

🔒 数据隐私和安全

用户负责确保使用MedBERT模型处理的任何敏感或机密数据的隐私和安全。在使用模型处理之前，个人身份信息（PII）应进行匿名化处理，并且用户必须采取适当措施保护数据隐私。

🚫 禁止活动

严禁用户尝试进行对抗攻击、信息检索或任何可能损害MedBERT模型安全和完整性的其他操作。违规者可能会面临法律后果，并可能导致模型发布被撤回。

通过下载和使用MedBERT模型，您确认已阅读、理解并同意遵守这些使用条款。

⚠️ 法律免责声明

使用 medBERT.de 即表示您同意不尝试对模型进行对抗攻击或信息检索。此类活动严格禁止，构成违反使用条款。违规者可能会面临法律后果，任何发现的违规行为可能导致模型发布立即撤回。继续使用 medBERT.de 即表示您承认并接受遵守这些条款和条件的责任。

📝 引用

@article{medbertde,
    title={MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain},
    author={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann and Florian Borchert and Lisa C. Adams and Leonhard Liu and Felix Busch and Lina Xu and Jan P. Loyen and Stefan M. Niehues and Moritz Augustin and Lennart Grosser and Marcus R. Makowski and Hugo JWL. Aerts and Alexander Löser},
    journal={arXiv preprint arXiv:2303.08179},
    year={2023},
    url={https://doi.org/10.48550/arXiv.2303.08179},
    note={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann contributed equally},
    subject={Computation and Language (cs.CL); Artificial Intelligence (cs.AI)},
}