🚀 生物临床现代BERT
生物临床现代BERT有两种规格可供选择:基础版(1.5亿参数)和大型版(3.96亿参数)。模型训练的检查点可在此处找到,我们的代码可在GitHub仓库中获取。
🚀 快速开始
BioClinical ModernBERT可直接通过transformers
库(版本需从v4.48.0开始)使用:
pip install -U transformers>=4.48.0
由于BioClinical ModernBERT是一个掩码语言模型(MLM),你可以使用fill-mask
管道或通过AutoModelForMaskedLM
加载它。若要将BioClinical ModernBERT用于分类、检索或问答等下游任务,请按照标准的BERT微调方法进行微调。
⚠️ 重要提示
如果你的GPU支持,我们建议使用Flash Attention 2来运行BioClinical ModernBERT,以达到最高效率。请按以下方式安装Flash Attention,然后正常使用该模型:
pip install flash-attn
✨ 主要特性
BioClinical ModernBERT是一个领域自适应编码器,它基于ModernBERT的基础版和大型版构建,融入了长上下文处理能力,并在生物医学和临床自然语言处理的速度和性能方面有显著提升。BioClinical ModernBERT在迄今为止最大的生物医学和临床语料库上进行训练,包含超过535亿个标记。它通过利用来自不同机构、领域和地理区域的20个数据集,而不是依赖单一来源的数据,解决了先前临床编码器的一个关键局限性。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
model_id = "thomas-sounack/BioClinical-ModernBERT-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id)
text = "Mitochondria is the powerhouse of the [MASK]."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
高级用法
import torch
from transformers import pipeline
from pprint import pprint
pipe = pipeline(
"fill-mask",
model="thomas-sounack/BioClinical-ModernBERT-base",
torch_dtype=torch.bfloat16,
)
input_text = "[MASK] is a disease caused by an uncontrolled division of abnormal cells in a part of the body."
results = pipe(input_text)
pprint(results)
💡 使用建议
BioClinical ModernBERT与ModernBERT类似,不像一些早期的BERT模型那样使用标记类型ID。大多数下游使用与Hugging Face Hub上的标准BERT模型相同,只是你可以省略token_type_ids
参数。
📚 详细文档
📦 训练数据
BioClinical ModernBERT在从PubMed和PMC收集的507亿个生物医学文本标记以及来自20个数据集的28亿个临床文本标记上进行训练,具体数据集详情如下表所示:
名称 |
国家 |
临床数据来源 |
临床背景 |
样本数量 |
标记数量(百万) |
ACI-BENCH |
美国 |
临床笔记 |
未报告 |
207 |
0.1 |
ADE Corpus |
多个国家 |
临床笔记 |
未报告 |
20,896 |
0.5 |
Brain MRI Stroke |
韩国 |
放射学报告 |
神经学 |
2,603 |
0.2 |
CheXpert Plus |
美国 |
放射学报告 |
肺病学 |
223,460 |
60.6 |
CHIFIR |
澳大利亚 |
病理学报告 |
血液学/肿瘤学 |
283 |
0.1 |
CORAL |
美国 |
进展笔记 |
血液学/肿瘤学 |
240 |
0.7 |
Eye Gaze CXR |
美国 |
放射学报告 |
肺病学 |
892 |
0.03 |
Gout Chief Complaints |
美国 |
主要症状 |
内科医学 |
8,429 |
0.2 |
ID-68 |
英国 |
临床笔记 |
心理学 |
78 |
0.02 |
Inspect |
美国 |
放射学报告 |
肺病学 |
22,259 |
2.8 |
MedNLI |
美国 |
临床笔记 |
内科医学 |
14,047 |
0.5 |
MedQA |
美国 |
国家医学委员会考试 |
未报告 |
14,366 |
2.0 |
MIMIC-III |
美国 |
临床笔记 |
内科医学 |
2,021,411 |
1,047.7 |
MIMIC-IV Note |
美国 |
临床笔记 |
内科医学 |
2,631,243 |
1,765.7 |
MTSamples |
未报告 |
临床笔记 |
内科医学 |
2,358 |
1.7 |
Negex |
美国 |
出院小结 |
未报告 |
2,056 |
0.1 |
PriMock57 |
英国 |
模拟患者护理 |
内科医学 |
57 |
0.01 |
Q-Pain |
美国 |
临床病例 |
姑息治疗 |
51 |
0.01 |
REFLACX |
美国 |
放射学报告 |
肺病学 |
2,543 |
0.1 |
Simulated Resp. Interviews |
加拿大 |
模拟患者护理 |
肺病学 |
272 |
0.6 |
🔧 训练方法
BioClinical ModernBERT基础版分两个阶段进行训练。该模型从ModernBERT基础版的最后一个稳定阶段检查点初始化,并使用相同的超参数进行训练:学习率为3e-4,批量大小为72。
- 阶段1:在来自PubMed、PMC和20个临床数据集的1605亿个标记上进行训练。在此阶段,学习率保持不变,掩码概率设置为30%。
- 阶段2:仅在20个临床数据集上进行训练。掩码概率降低到15%。模型以1-sqrt学习率衰减进行3个周期的训练。
🔍 评估结果
|
模型 |
上下文长度 |
ChemProt |
表型 |
COS |
社会史 |
去标识化 |
基础版 |
BioBERT |
512 |
89.5 |
26.6 |
94.9 |
55.8 |
74.3 |
|
Clinical BERT |
512 |
88.3 |
25.8 |
95.0 |
55.2 |
74.2 |
|
BioMed-RoBERTa |
512 |
89.0 |
36.8 |
94.9 |
55.2 |
81.1 |
|
Clinical-BigBird |
4096 |
87.4 |
26.5 |
94.0 |
53.3 |
71.2 |
|
Clinical-Longformer |
4096 |
74.2 |
46.4 |
95.2 |
56.8 |
82.3 |
|
Clinical ModernBERT |
8192 |
86.9 |
54.9 |
93.7 |
53.8 |
44.4 |
|
ModernBERT - base |
8192 |
89.5 |
48.4 |
94.0 |
53.1 |
78.3 |
|
BioClinical ModernBERT - base |
8192 |
89.9 |
58.1 |
95.1 |
58.5 |
82.7 |
大型版 |
ModernBERT - large |
8192 |
90.2 |
58.3 |
94.4 |
54.8 |
82.1 |
|
BioClinical ModernBERT - large |
8192 |
90.8 |
60.8 |
95.1 |
57.1 |
83.8 |
📄 许可证
我们根据MIT许可证发布BioClinical ModernBERT基础版和大型版的模型权重以及训练检查点。
📚 引用
如果您在工作中使用了BioClinical ModernBERT,请引用我们的预印本:
@misc{sounack2025bioclinicalmodernbertstateoftheartlongcontext,
title={BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP},
author={Thomas Sounack and Joshua Davis and Brigitte Durieux and Antoine Chaffin and Tom J. Pollard and Eric Lehman and Alistair E. W. Johnson and Matthew McDermott and Tristan Naumann and Charlotta Lindvall},
year={2025},
eprint={2506.10896},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2506.10896},
}