🚀 MS - BERT
MS - BERT是一个专门针对多发性硬化症(MS)患者神经检查记录进行预训练的模型。本仓库提供了MS - BERT的代码和模型,其预训练数据来自加拿大多伦多圣迈克尔医院的相关患者记录,能为多发性硬化症相关的研究和应用提供有力支持。
🚀 快速开始
本仓库提供了MS - BERT的代码和模型。MS - BERT是基于加拿大多伦多圣迈克尔医院多发性硬化症(MS)患者的神经检查记录进行预训练的。
✨ 主要特性
- 专业领域预训练:基于多发性硬化症患者的神经检查记录进行预训练,更贴合该领域的实际应用。
- 数据丰富:使用约75,000条临床记录,涵盖约5000名患者,总字数超3570万,包含患者病情、进展和诊断等多方面信息。
📦 安装指南
文档未提及具体安装步骤,故跳过该章节。
💻 使用示例
文档未提供代码示例,故跳过该章节。
📚 详细文档
数据情况
- 数据集包含约75,000条临床记录,涉及约5000名患者,总字数超过3570万。
- 这些记录来自2015年至2019年访问圣迈克尔医院MS诊所的患者,包含神经检查的各种信息,如患者病情、随时间的进展以及诊断等。
- 数据集中女性占比72%,男性占比28%,这反映了多发性硬化症患者的自然性别差异。
数据预处理
- 对数据进行预处理以去除任何识别信息,包括患者姓名、医生姓名、医院名称、患者识别号、电话号码、地址和时间等。
- 使用一个包含患者和医生信息的精选数据库,并结合正则表达式来查找和移除这些识别信息。
- 每个识别信息都被替换为一个特定的标记,这些标记的选择基于三个标准:
- 它们属于当前的BERT词汇表。
- 它们与被替换的单词具有相对相同的语义。
- 该标记在原始未处理的数据集中未出现。
- 具体的替换如下:
属性 |
详情 |
女性名字 |
Lucie |
男性名字 |
Ezekiel |
姓氏 |
Salamanca |
日期 |
2010s |
患者ID |
999 |
电话号码 |
1718 |
地址 |
Silesia |
时间 |
1610 |
地点/医院/诊所名称 |
Troy |
预训练
- 模型的起点是已经预训练并微调过的BLUE - BERT基础模型。
- 使用huggingface transformers库中的掩码语言建模任务进行进一步预训练。
- 超参数可以在本仓库的配置文件中找到,也可以查看这里。
🔧 技术细节
本项目以预训练并微调过的BLUE - BERT基础模型为起点,利用huggingface transformers库中的掩码语言建模任务进行进一步预训练。在数据处理方面,采用了精心设计的方法去除识别信息,通过精选数据库和正则表达式的结合,将各类识别信息替换为符合特定标准的标记,以确保数据的安全性和模型训练的有效性。
📄 许可证
文档未提及许可证信息,故跳过该章节。
致谢
感谢圣迈克尔医院数据科学与高级分析(DSAA)部门的研究人员和工作人员,在整个项目过程中提供了持续的支持和指导。
也感谢Marzyeh Ghassemi博士、Taylor Killan、Nathan Ng和Haoran Zhang为我们提供参与这个令人兴奋项目的机会。
免责声明
MS - BERT展示了圣迈克尔医院数据科学与高级分析(DSAA)部门进行的研究结果。MS - BERT产生的结果不旨在未经临床专业人员审查和监督的情况下直接用于诊断或医疗决策。个人不应仅根据MS - BERT产生的结果来决定自己的健康问题。圣迈克尔医院不会独立验证MS - BERT产生结果的有效性或实用性。如果您对MS - BERT产生的结果有疑问,请咨询医疗保健专业人员。如果您想了解更多关于DSAA进行的研究信息,请联系Zhen Yang。如果您想了解更多关于神经检查记录的信息,请联系圣迈克尔医院MS诊所的Tony Antoniou博士或Jiwon Oh博士。