🚀 medBERT.de:適用於醫療領域的全面德語BERT模型
medBERT.de 是一個基於BERT架構的德語醫療自然語言處理模型,它在大量的醫療文本、臨床筆記、研究論文和醫療相關文檔數據集上進行了專門的訓練和微調。該模型旨在執行醫療領域的各種自然語言處理任務,如醫療信息提取、診斷預測等。
📚 詳細文檔
🔧 架構
medBERT.de 基於標準的BERT架構,如原始BERT論文(Devlin等人的 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”)中所述。該模型採用了多層雙向Transformer編碼器,使其能夠從輸入文本的左右兩個方向捕獲上下文信息。medBERT.de 有12層,每層有768個隱藏單元,每層有8個注意力頭,並且可以在單個輸入序列中處理多達512個標記。
📦 訓練數據
medBERT.de 在大量的醫療文本、臨床筆記、研究論文和醫療相關文檔數據集上進行了微調。這種多樣化的數據集確保了模型熟悉各種醫療子領域,並能處理廣泛的醫療自然語言處理任務。
以下表格概述了用於預訓練 medBERT.de 的數據來源:
來源 |
文檔數量 |
句子數量 |
單詞數量 |
大小 (MB) |
DocCheck Flexikon |
63,840 |
720,404 |
12,299,257 |
92 |
GGPOnc 1.0 |
4,369 |
66,256 |
1,194,345 |
10 |
Webcrawl |
11,322 |
635,806 |
9,323,774 |
65 |
PubMed摘要 |
12,139 |
108,936 |
1,983,752 |
16 |
放射學報告 |
3,657,801 |
60,839,123 |
520,717,615 |
4,195 |
Spinger Nature |
257,999 |
14,183,396 |
259,284,884 |
1,986 |
電子健康記錄 |
373,421 |
4,603,461 |
69,639,020 |
440 |
博士論文 |
7,486 |
4,665,850 |
90,380,880 |
648 |
Thieme Publishing Group |
330,994 |
10,445,580 |
186,200,935 |
2,898 |
維基百科 |
3,639 |
161,714 |
2,799,787 |
22 |
總計 |
4,723,010 |
96,430,526 |
1,153,824,249 |
10,372 |
所有訓練數據都經過了完全匿名化處理,並且刪除了所有患者相關信息。
🛠️ 預處理
輸入文本使用WordPiece分詞技術進行預處理,該技術將文本分解為子詞單元,以更好地捕獲罕見或未登錄詞。我們保留了大小寫格式,並且沒有從文本中刪除特殊字符。medBERT.de 配備了專門為德語醫療語言優化的分詞器。
📊 性能指標
我們在各種下游任務上對 medBERT.de 進行了微調,並將其與德語醫療領域的其他先進BERT模型進行了比較。以下是基於放射學報告的分類任務的一些示例結果。更多詳細結果請參考我們的論文。
模型 |
AUROC |
宏F1值 |
微F1值 |
精確率 |
召回率 |
胸部CT |
|
|
|
|
|
GottBERT |
92.48 |
69.06 |
83.98 |
76.55 |
65.92 |
BioGottBERT |
92.71 |
69.42 |
83.41 |
80.67 |
65.52 |
多語言BERT |
91.90 |
66.31 |
80.86 |
68.37 |
65.82 |
German - MedBERT |
92.48 |
66.40 |
81.41 |
72.77 |
62.37 |
medBERT.de |
96.69 |
81.46 |
89.39 |
87.88 |
78.77 |
medBERT.dededup |
96.39 |
78.77 |
89.24 |
84.29 |
76.01 |
胸部X光 |
|
|
|
|
|
GottBERT |
83.18 |
64.86 |
74.18 |
59.67 |
78.87 |
BioGottBERT |
83.48 |
64.18 |
74.87 |
59.04 |
78.90 |
多語言BERT |
82.43 |
63.23 |
73.92 |
56.67 |
75.33 |
German - MedBERT |
83.22 |
63.13 |
75.39 |
55.66 |
78.03 |
medBERT.de |
84.65 |
67.06 |
76.20 |
60.44 |
83.08 |
medBERT.dededup |
84.42 |
66.92 |
76.26 |
60.31 |
82.99 |
⚖️ 公平性和偏差
🌍 地理偏差
由於大量臨床數據來自德國柏林的一家醫院,該模型可能會偏向於該特定地區流行的醫療實踐、術語和疾病。當應用於具有不同醫療系統和患者群體的其他地區或國家時,這可能會導致性能和公平性下降。
🧑🤝🧑 人口統計學偏差
柏林醫院的患者群體可能不能代表更廣泛的德國或全球人口。年齡、性別、種族和社會經濟地位的差異可能導致模型在預測和理解某些特定人口群體中更常見的醫療狀況、症狀或治療方法時產生偏差。
🏥 專業偏差
大部分訓練數據由放射學報告組成,這可能會使模型偏向於放射學中使用的語言和概念。這可能導致對訓練數據中代表性不足的其他醫學專業或子領域的理解不夠準確。
🔒 安全和隱私
🤐 匿名化
為確保 medBERT.de 在訓練和使用過程中的數據隱私,已採取了多項措施。用於訓練模型的所有臨床數據都經過了徹底的匿名化處理,刪除了患者姓名和其他個人身份信息(PII),以保護患者隱私。儘管某些數據源(如DocCheck)可能包含著名醫生的姓名或在DocCheck平臺上發表演講的個人姓名,但這些實例與患者數據無關,不應構成重大隱私風險。然而,有可能從模型中提取這些姓名。
所有訓練數據都安全存儲,不會公開訪問。但是,我們將提供一些用於醫學基準測試的訓練數據。
🛡️ 模型安全
MedBERT在設計時考慮了安全性,以最大限度地減少與對抗攻擊和信息洩露相關的風險。我們對模型進行了信息洩露測試,未發現數據洩露的證據。然而,與任何機器學習模型一樣,無法保證對潛在攻擊的完全安全。
⚠️ 侷限性
- 泛化能力:medBERT.de 可能難以處理訓練數據集中未包含的醫學術語或概念,特別是新的或罕見的疾病、治療方法和程序。
- 語言偏差:medBERT.de 主要在德語數據上進行訓練,對於非德語或多語言環境,其性能可能會顯著下降。
- 上下文誤解:medBERT.de 偶爾可能會誤解文本的上下文,導致錯誤的預測或提取的信息不準確。
- 信息驗證能力:medBERT.de 無法驗證其處理信息的準確性,因此不適合對數據驗證至關重要的任務。
- 法律和倫理考慮:該模型不應用於做出或參與醫療決策,僅應用於研究目的。
📄 許可證
本項目採用Apache-2.0許可證。
📜 使用條款
通過從Hugging Face Hub下載和使用MedBERT模型,您同意遵守以下條款和條件:
🎯 目的和範圍
MedBERT模型僅用於研究和信息目的,不得作為做出醫療決策或診斷患者的唯一依據。該模型應作為專業醫療建議和臨床判斷的補充工具使用。
🤝 正確使用
用戶同意以負責任的方式使用MedBERT,遵守所有適用的法律、法規和道德準則。該模型不得用於任何非法、有害或惡意目的。不得將該模型用於臨床決策和患者治療。
🔒 數據隱私和安全
用戶負責確保使用MedBERT模型處理的任何敏感或機密數據的隱私和安全。在使用模型處理之前,個人身份信息(PII)應進行匿名化處理,並且用戶必須採取適當措施保護數據隱私。
🚫 禁止活動
嚴禁用戶嘗試進行對抗攻擊、信息檢索或任何可能損害MedBERT模型安全和完整性的其他操作。違規者可能會面臨法律後果,並可能導致模型發佈被撤回。
通過下載和使用MedBERT模型,您確認已閱讀、理解並同意遵守這些使用條款。
⚠️ 法律免責聲明
使用 medBERT.de 即表示您同意不嘗試對模型進行對抗攻擊或信息檢索。此類活動嚴格禁止,構成違反使用條款。違規者可能會面臨法律後果,任何發現的違規行為可能導致模型發佈立即撤回。繼續使用 medBERT.de 即表示您承認並接受遵守這些條款和條件的責任。
📝 引用
@article{medbertde,
title={MEDBERT.de: A Comprehensive German BERT Model for the Medical Domain},
author={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann and Florian Borchert and Lisa C. Adams and Leonhard Liu and Felix Busch and Lina Xu and Jan P. Loyen and Stefan M. Niehues and Moritz Augustin and Lennart Grosser and Marcus R. Makowski and Hugo JWL. Aerts and Alexander Löser},
journal={arXiv preprint arXiv:2303.08179},
year={2023},
url={https://doi.org/10.48550/arXiv.2303.08179},
note={Keno K. Bressem and Jens-Michalis Papaioannou and Paul Grundmann contributed equally},
subject={Computation and Language (cs.CL); Artificial Intelligence (cs.AI)},
}