🚀 ModernBERT Medical Safety Classifier
ModernBERT Medical Safety Classifierは、多様な医療分野の医療テキストの安全性と倫理基準を評価するために微調整されたTransformerベースの言語モデルです。ModernBERTアーキテクチャをベースに構築され、Llama 3.1 (70B) の強力な評価を活用して、そのモデルの安全性と倫理的洞察を、大幅に小さく高速な分類器に凝縮します。具体的には、The Blue Scrubsデータセットの新たに選りすぐったバランスの取れたサブセット(合計83,636件の文書)でトレーニングされ、各文書は安全性と倫理的遵守に関してLlama 3.1 (70B) で注釈付けされています。これらの大規模モデルの評価をModernBERTに移すことで、得られた分類器は堅牢な予測精度を維持しながら、リアルタイムまたはリソース制約のある推論にも十分に軽量です。

🚀 クイックスタート
このモデルを使用するには、以下のコード例を参考にしてください。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained("TheBlueScrubs/ModernBERT-base-TBS")
model = AutoModelForSequenceClassification.from_pretrained("TheBlueScrubs/ModernBERT-base-TBS")
text = "Your medical text here."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=4096)
outputs = model(**inputs)
predictions = outputs.logits
safety_score = predictions.item()
print(f"Safety Score: {safety_score}")
✨ 主な機能
- 医療テキストの安全性と倫理基準を評価する。
- ModernBERTアーキテクチャをベースに、Llama 3.1 (70B) の評価を活用。
- 軽量で高速な推論が可能。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers torch
📚 ドキュメント
モデルの詳細
ModernBERTは、Rotary Positional Embeddings、local–global alternating attention、Flash Attentionなどの最新の技術を組み込んだ高度なエンコーダ専用モデルで、最大8,192トークンの拡張コンテキストウィンドウで効率的な推論が可能です。
想定される用途と制限
想定される用途
このモデルは、安全性と倫理基準に基づいて医療テキストを分類するように設計されており、特にがん関連のコンテンツに焦点を当てています。医療文書の安全性を評価し、確立された倫理ガイドラインに準拠していることを確認するために利用できます。
制限
このモデルはがん特化のテキストのかなりのコーパスでトレーニングされていますが、腫瘍学以外の医療分野でのパフォーマンスは評価されていません。ユーザーは、がん関連以外の医療コンテンツにこのモデルを適用する際には注意が必要です。
トレーニングデータ
モデルは、高安全性のテキストの過剰表現を解消するために、The Blue Scrubsデータセットから新しいバランスの取れたサブセットで再トレーニングされました。具体的には:
- すべてのファイルを通じて合計11,500,608行をスキャンし、解析/NaN/0/範囲外の問題がある112,330行を削除し、11,388,278行の有効な行を残しました。
- これらの有効な行のうち、41,818行の安全性スコアが2以下で、11,346,460行の安全性スコアが2を超えていました。
- データセットをバランスさせるために、文書をランダムにサンプリングして、不安全(2以下)と安全(2を超える)のテキストが均等に表されるようにしました。これにより、合計83,636行の最終的なバランスの取れたセットが得られました。
各行は、Llama 3.1 (70B) からの元の連続した安全性スコア(最も安全でない1から最も安全な5まで)を保持しています。これらのスコアは、トレーニング中に再び回帰ターゲットとして機能しました。
トレーニング手順
前処理
テキストは、最大シーケンス長4,096トークンのModernBERTトークナイザーを使用してトークン化されました。データは信頼できると見なされたため、追加のフィルタリングは適用されませんでした。
トレーニングハイパーパラメータ
- 学習率: 2e-5
- エポック数: 5
- バッチサイズ: 20(デバイスごと)
- 勾配累積ステップ: 8
- オプティマイザー: AdamW
- 重み減衰: 0.01
- FP16トレーニング: 有効
- 総トレーニングステップ: 最終的なバランスの取れたセットに対して約5エポック
他のすべてのハイパーパラメータ設定(例:バッチサイズ、オプティマイザーの選択)は、前回のトレーニングと同じままでした。学習率、エポック数、およびバランスの取れたデータセットのみが変更されました。
評価
テストデータ
モデルのパフォーマンスは、トレーニングセットに含まれていないThe Blue Scrubsデータセットのがん関連文書からなるサンプル外のテストセットで評価されました。
評価指標
- 平均二乗誤差 (MSE): 予測された安全性スコアと実際の安全性スコアの平均二乗差を測定します。
- 正確性: 予測を二値化(不安全 ≤ 2対安全 > 2)することで決定されます。
- ROC解析: 安全なコンテンツと不安全なコンテンツを区別するモデルの能力を評価します。
結果
- MSE: 0.489
- RMSE: 0.699
- 正確性: 0.9642
- ROC解析: 高い真陽性率と低い偽陽性率で、堅牢な分類能力を示しました。

🔧 技術詳細
このモデルは、多様な医療分野を網羅するThe Blue Scrubsデータセットの選りすぐったサブセットでトレーニングされていますが、一部の領域は依然として過小評価されている可能性があります。他のモデルと同様に、データ構成に起因するバイアスのリスクがあり、ユーザーは分類器を適用する際に、特に高度に専門化されたコンテキストでは注意が必要です。出力は常に専門家の意見と最新の臨床ガイドラインと照合して、安全で正確な医療用途を確保する必要があります。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
推奨事項
ユーザーは、特定のデータセットでモデルのパフォーマンスを検証し、必要に応じてドメイン固有のデータでモデルを微調整することを検討する必要があります。モデルの予測が最新の医療基準と倫理ガイドラインに沿っていることを確保するために、継続的な監視と評価が推奨されます。
引用
このモデルを研究またはアプリケーションで利用する場合は、次のように引用してください。
@misc{thebluescrubs2025modernbert,
author = {TheBlueScrubs},
title = {ModernBERT Medical Safety Classifier},
year = {2025},
publisher = {Hugging Face},
url = {https://https://huggingface.co/TheBlueScrubs/ModernBERT-base-TBS}
}
モデルカード作成者