🚀 MS - BERT
MS - BERT是一個專門針對多發性硬化症(MS)患者神經檢查記錄進行預訓練的模型。本倉庫提供了MS - BERT的代碼和模型,其預訓練數據來自加拿大多倫多聖邁克爾醫院的相關患者記錄,能為多發性硬化症相關的研究和應用提供有力支持。
🚀 快速開始
本倉庫提供了MS - BERT的代碼和模型。MS - BERT是基於加拿大多倫多聖邁克爾醫院多發性硬化症(MS)患者的神經檢查記錄進行預訓練的。
✨ 主要特性
- 專業領域預訓練:基於多發性硬化症患者的神經檢查記錄進行預訓練,更貼合該領域的實際應用。
- 數據豐富:使用約75,000條臨床記錄,涵蓋約5000名患者,總字數超3570萬,包含患者病情、進展和診斷等多方面信息。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過該章節。
💻 使用示例
文檔未提供代碼示例,故跳過該章節。
📚 詳細文檔
數據情況
- 數據集包含約75,000條臨床記錄,涉及約5000名患者,總字數超過3570萬。
- 這些記錄來自2015年至2019年訪問聖邁克爾醫院MS診所的患者,包含神經檢查的各種信息,如患者病情、隨時間的進展以及診斷等。
- 數據集中女性佔比72%,男性佔比28%,這反映了多發性硬化症患者的自然性別差異。
數據預處理
- 對數據進行預處理以去除任何識別信息,包括患者姓名、醫生姓名、醫院名稱、患者識別號、電話號碼、地址和時間等。
- 使用一個包含患者和醫生信息的精選數據庫,並結合正則表達式來查找和移除這些識別信息。
- 每個識別信息都被替換為一個特定的標記,這些標記的選擇基於三個標準:
- 它們屬於當前的BERT詞彙表。
- 它們與被替換的單詞具有相對相同的語義。
- 該標記在原始未處理的數據集中未出現。
- 具體的替換如下:
屬性 |
詳情 |
女性名字 |
Lucie |
男性名字 |
Ezekiel |
姓氏 |
Salamanca |
日期 |
2010s |
患者ID |
999 |
電話號碼 |
1718 |
地址 |
Silesia |
時間 |
1610 |
地點/醫院/診所名稱 |
Troy |
預訓練
- 模型的起點是已經預訓練並微調過的BLUE - BERT基礎模型。
- 使用huggingface transformers庫中的掩碼語言建模任務進行進一步預訓練。
- 超參數可以在本倉庫的配置文件中找到,也可以查看這裡。
🔧 技術細節
本項目以預訓練並微調過的BLUE - BERT基礎模型為起點,利用huggingface transformers庫中的掩碼語言建模任務進行進一步預訓練。在數據處理方面,採用了精心設計的方法去除識別信息,通過精選數據庫和正則表達式的結合,將各類識別信息替換為符合特定標準的標記,以確保數據的安全性和模型訓練的有效性。
📄 許可證
文檔未提及許可證信息,故跳過該章節。
致謝
感謝聖邁克爾醫院數據科學與高級分析(DSAA)部門的研究人員和工作人員,在整個項目過程中提供了持續的支持和指導。
也感謝Marzyeh Ghassemi博士、Taylor Killan、Nathan Ng和Haoran Zhang為我們提供參與這個令人興奮項目的機會。
免責聲明
MS - BERT展示了聖邁克爾醫院數據科學與高級分析(DSAA)部門進行的研究結果。MS - BERT產生的結果不旨在未經臨床專業人員審查和監督的情況下直接用於診斷或醫療決策。個人不應僅根據MS - BERT產生的結果來決定自己的健康問題。聖邁克爾醫院不會獨立驗證MS - BERT產生結果的有效性或實用性。如果您對MS - BERT產生的結果有疑問,請諮詢醫療保健專業人員。如果您想了解更多關於DSAA進行的研究信息,請聯繫Zhen Yang。如果您想了解更多關於神經檢查記錄的信息,請聯繫聖邁克爾醫院MS診所的Tony Antoniou博士或Jiwon Oh博士。