🚀 ClinicalBERT - 生物 + 出院小結BERT模型
ClinicalBERT是一種專門用於臨床領域的預訓練語言模型。本模型基於BioBERT初始化,並在MIMIC數據庫的出院小結數據上進行訓練,能為臨床自然語言處理任務提供強大支持。
🚀 快速開始
加載模型可通過transformers
庫實現:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
✨ 主要特性
- 基於BioBERT初始化,結合了生物醫學領域的先驗知識。
- 在MIMIC數據庫的出院小結數據上進行訓練,更貼合臨床實際場景。
📦 安裝指南
暫未提供具體安裝步驟,可參考transformers
庫的官方文檔進行安裝。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
📚 詳細文檔
預訓練數據
Bio_Discharge_Summary_BERT
模型在MIMIC III數據庫的所有出院小結上進行訓練。MIMIC III是一個包含波士頓貝斯以色列醫院重症監護室(ICU)患者電子健康記錄的數據庫。NOTEEVENTS
表中的所有記錄都被納入訓練(約8.8億個單詞)。如需瞭解MIMIC的更多詳細信息,請參考此處。
模型預訓練
記錄預處理
MIMIC中的每條記錄首先使用基於規則的章節分割器進行章節分割(例如,出院小結記錄被分割為“現病史”、“家族史”、“住院簡要過程”等章節)。然後,每個章節使用SciSpacy(en core sci md
分詞器)分割成句子。
預訓練流程
該模型使用Google的BERT倉庫中的代碼在GeForce GTX TITAN X 12 GB GPU上進行訓練。模型參數使用BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K
)進行初始化。
預訓練超參數
- 批量大小:32
- 最大序列長度:128
- 學習率:5 · 10−5
- 訓練步數:在所有MIMIC記錄上訓練的模型訓練了150,000步
- 輸入數據複製因子(dup factor):5
- 其他默認參數:掩碼語言模型概率 = 0.15,每個序列的最大預測數 = 20
更多信息
有關更多詳細信息以及模型在自然語言推理(NLI)和命名實體識別(NER)任務上的性能,請參考原始論文Publicly Available Clinical BERT Embeddings(NAACL Clinical NLP Workshop 2019)。
問題反饋
如有任何問題,請在clinicalBERT倉庫上發佈GitHub問題,或發送電子郵件至emilya@mit.edu。
📄 許可證
本項目採用MIT許可證。