🚀 ClinicalBERT - 生物 + 出院小结BERT模型
ClinicalBERT是一种专门用于临床领域的预训练语言模型。本模型基于BioBERT初始化,并在MIMIC数据库的出院小结数据上进行训练,能为临床自然语言处理任务提供强大支持。
🚀 快速开始
加载模型可通过transformers
库实现:
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
✨ 主要特性
- 基于BioBERT初始化,结合了生物医学领域的先验知识。
- 在MIMIC数据库的出院小结数据上进行训练,更贴合临床实际场景。
📦 安装指南
暂未提供具体安装步骤,可参考transformers
库的官方文档进行安装。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
model = AutoModel.from_pretrained("emilyalsentzer/Bio_Discharge_Summary_BERT")
📚 详细文档
预训练数据
Bio_Discharge_Summary_BERT
模型在MIMIC III数据库的所有出院小结上进行训练。MIMIC III是一个包含波士顿贝斯以色列医院重症监护室(ICU)患者电子健康记录的数据库。NOTEEVENTS
表中的所有记录都被纳入训练(约8.8亿个单词)。如需了解MIMIC的更多详细信息,请参考此处。
模型预训练
记录预处理
MIMIC中的每条记录首先使用基于规则的章节分割器进行章节分割(例如,出院小结记录被分割为“现病史”、“家族史”、“住院简要过程”等章节)。然后,每个章节使用SciSpacy(en core sci md
分词器)分割成句子。
预训练流程
该模型使用Google的BERT仓库中的代码在GeForce GTX TITAN X 12 GB GPU上进行训练。模型参数使用BioBERT(BioBERT-Base v1.0 + PubMed 200K + PMC 270K
)进行初始化。
预训练超参数
- 批量大小:32
- 最大序列长度:128
- 学习率:5 · 10−5
- 训练步数:在所有MIMIC记录上训练的模型训练了150,000步
- 输入数据复制因子(dup factor):5
- 其他默认参数:掩码语言模型概率 = 0.15,每个序列的最大预测数 = 20
更多信息
有关更多详细信息以及模型在自然语言推理(NLI)和命名实体识别(NER)任务上的性能,请参考原始论文Publicly Available Clinical BERT Embeddings(NAACL Clinical NLP Workshop 2019)。
问题反馈
如有任何问题,请在clinicalBERT仓库上发布GitHub问题,或发送电子邮件至emilya@mit.edu。
📄 许可证
本项目采用MIT许可证。