🚀 バイオクリニカル ModernBERT
バイオクリニカル ModernBERT には、ベース(1億5000万パラメータ)と ラージ(3億9600万パラメータ)の2種類のサイズがあります。モデルの学習チェックポイントはこちらで見ることができ、コードは GitHubリポジトリ で公開されています。
🚀 クイックスタート
このセクションでは、バイオクリニカル ModernBERT の概要、使い方、学習方法、評価結果、ライセンス、引用方法について説明します。
✨ 主な機能
バイオクリニカル ModernBERT は、ModernBERT ベース と ラージ をベースにした領域適応型エンコーダです。長文コンテキスト処理を組み込み、生物医学および臨床の自然言語処理における速度と性能を大幅に向上させています。このモデルは、これまでで最大の生物医学および臨床コーパス(535億以上のトークン)で学習されており、単一のデータソースに依存するのではなく、多様な機関、領域、地理的地域からの20のデータセットを活用することで、従来の臨床エンコーダの重要な制限を克服しています。
📦 インストール
transformers
ライブラリを v4.48.0 以上でインストールすることで、これらのモデルを直接使用することができます。
pip install -U transformers>=4.48.0
⚠️ 重要提示
GPUがサポートしている場合は、最高の効率を達成するために、Flash Attention 2 を使用して BioClinical ModernBERT を使用することをお勧めします。そのためには、以下のように Flash Attention をインストールしてから、通常通りモデルを使用します。
pip install flash-attn
💻 使用例
基本的な使用法
AutoModelForMaskedLM
を使用する例:
from transformers import AutoTokenizer, AutoModelForMaskedLM
model_id = "thomas-sounack/BioClinical-ModernBERT-base"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id)
text = "Mitochondria is the powerhouse of the [MASK]."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
パイプラインを使用する例:
import torch
from transformers import pipeline
from pprint import pprint
pipe = pipeline(
"fill-mask",
model="thomas-sounack/BioClinical-ModernBERT-base",
torch_dtype=torch.bfloat16,
)
input_text = "[MASK] is a disease caused by an uncontrolled division of abnormal cells in a part of the body."
results = pipe(input_text)
pprint(results)
💡 使用建议
BioClinical ModernBERT は、ModernBERT と同様に、一部の初期の BERT モデルとは異なり、トークンタイプ ID を使用しません。ほとんどの下流の使用法は、Hugging Face Hub 上の標準的な BERT モデルと同じですが、token_type_ids
パラメータを省略することができます。
🔧 技術詳細
データ
バイオクリニカル ModernBERT は、PubMed と PMC から収集された507億の生物医学テキストのトークンと、以下の表に詳細が記載されている20のデータセットからの28億の臨床テキストのトークンで学習されています。
名称 |
国 |
臨床データソース |
臨床コンテキスト |
サンプル数 |
トークン数 (M) |
ACI-BENCH |
米国 |
臨床ノート |
未報告 |
207 |
0.1 |
ADE Corpus |
複数 |
臨床ノート |
未報告 |
20,896 |
0.5 |
Brain MRI Stroke |
韓国 |
放射線学レポート |
神経学 |
2,603 |
0.2 |
CheXpert Plus |
米国 |
放射線学レポート |
肺臓病学 |
223,460 |
60.6 |
CHIFIR |
オーストラリア |
病理レポート |
血液学/腫瘍学 |
283 |
0.1 |
CORAL |
米国 |
経過ノート |
血液学/腫瘍学 |
240 |
0.7 |
Eye Gaze CXR |
米国 |
放射線学レポート |
肺臓病学 |
892 |
0.03 |
Gout Chief Complaints |
米国 |
主訴 |
内科 |
8,429 |
0.2 |
ID-68 |
英国 |
臨床ノート |
心理学 |
78 |
0.02 |
Inspect |
米国 |
放射線学レポート |
肺臓病学 |
22,259 |
2.8 |
MedNLI |
米国 |
臨床ノート |
内科 |
14,047 |
0.5 |
MedQA |
米国 |
国家医師試験 |
未報告 |
14,366 |
2.0 |
MIMIC-III |
米国 |
臨床ノート |
内科 |
2,021,411 |
1,047.7 |
MIMIC-IV Note |
米国 |
臨床ノート |
内科 |
2,631,243 |
1,765.7 |
MTSamples |
未報告 |
臨床ノート |
内科 |
2,358 |
1.7 |
Negex |
米国 |
退院要約 |
未報告 |
2,056 |
0.1 |
PriMock57 |
英国 |
シミュレートされた患者ケア |
内科 |
57 |
0.01 |
Q-Pain |
米国 |
臨床ビネット |
緩和ケア |
51 |
0.01 |
REFLACX |
米国 |
放射線学レポート |
肺臓病学 |
2,543 |
0.1 |
Simulated Resp. Interviews |
カナダ |
シミュレートされた患者ケア |
肺臓病学 |
272 |
0.6 |
方法論
バイオクリニカル ModernBERT ベースは2つのフェーズで学習されています。このモデルは、ModernBERT ベースの最後の安定フェーズのチェックポイントから初期化され、同じハイパーパラメータ(学習率 3e-4、バッチサイズ 72)で学習されます。
- フェーズ1:PubMed、PMC、および20の臨床データセットからの1605億のトークンで学習。この段階では学習率は一定で、マスキング確率は30%に設定されています。
- フェーズ2:20の臨床データセットのみで学習。マスキング確率は15%に下げられます。モデルは1-sqrt学習率減衰で3エポック学習されます。
評価
以下の表は、バイオクリニカル ModernBERT の評価結果を他のモデルと比較したものです。
|
モデル |
コンテキスト長 |
ChemProt |
表現型 |
COS |
社会的履歴 |
DEID |
ベース |
BioBERT |
512 |
89.5 |
26.6 |
94.9 |
55.8 |
74.3 |
|
Clinical BERT |
512 |
88.3 |
25.8 |
95.0 |
55.2 |
74.2 |
|
BioMed-RoBERTa |
512 |
89.0 |
36.8 |
94.9 |
55.2 |
81.1 |
|
Clinical-BigBird |
4096 |
87.4 |
26.5 |
94.0 |
53.3 |
71.2 |
|
Clinical-Longformer |
4096 |
74.2 |
46.4 |
95.2 |
56.8 |
82.3 |
|
Clinical ModernBERT |
8192 |
86.9 |
54.9 |
93.7 |
53.8 |
44.4 |
|
ModernBERT - base |
8192 |
89.5 |
48.4 |
94.0 |
53.1 |
78.3 |
|
BioClinical ModernBERT - base |
8192 |
89.9 |
58.1 |
95.1 |
58.5 |
82.7 |
ラージ |
ModernBERT - large |
8192 |
90.2 |
58.3 |
94.4 |
54.8 |
82.1 |
|
BioClinical ModernBERT - large |
8192 |
90.8 |
60.8 |
95.1 |
57.1 |
83.8 |
📄 ライセンス
バイオクリニカル ModernBERT のベースおよびラージモデルの重みと学習チェックポイントは、MITライセンスの下で公開されています。
引用
あなたの研究でバイオクリニカル ModernBERT を使用する場合は、以下のプレプリントを引用してください。
@misc{sounack2025bioclinicalmodernbertstateoftheartlongcontext,
title={BioClinical ModernBERT: A State-of-the-Art Long-Context Encoder for Biomedical and Clinical NLP},
author={Thomas Sounack and Joshua Davis and Brigitte Durieux and Antoine Chaffin and Tom J. Pollard and Eric Lehman and Alistair E. W. Johnson and Matthew McDermott and Tristan Naumann and Charlotta Lindvall},
year={2025},
eprint={2506.10896},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2506.10896},
}