🚀 ModernBERT醫療安全分類器
ModernBERT醫療安全分類器是一個基於Transformer的語言模型,經過微調後可評估不同醫學領域中醫護文本的安全性和道德標準。它基於ModernBERT架構構建,利用Llama 3.1(70B)的強大評估能力,將該模型的安全和道德見解提煉成一個更小、更快的分類器。具體來說,它在新策劃的、平衡的The Blue Scrubs數據集子集(共83,636份文檔)上進行訓練,每個文檔都由Llama 3.1(70B)標註了安全性和道德合規性。通過將這些大模型評估結果遷移到ModernBERT中,得到的分類器在保持強大預測準確性的同時,還足夠輕量級,可用於即時或資源受限的推理。
✨ 主要特性
- 強大評估能力:藉助Llama 3.1(70B)的評估能力,將安全和道德見解融入模型。
- 輕量級設計:在保持準確性的同時,適合即時或資源受限的推理。
- 先進架構:採用ModernBERT架構,結合多種創新技術,實現高效推理和擴展上下文窗口。
📦 安裝指南
文檔中未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained("TheBlueScrubs/ModernBERT-base-TBS")
model = AutoModelForSequenceClassification.from_pretrained("TheBlueScrubs/ModernBERT-base-TBS")
text = "Your medical text here."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=4096)
outputs = model(**inputs)
predictions = outputs.logits
safety_score = predictions.item()
print(f"Safety Score: {safety_score}")
📚 詳細文檔
模型詳情
ModernBERT是一種先進的僅編碼器模型,融合了旋轉位置嵌入、局部 - 全局交替注意力和Flash注意力等最新創新技術,能夠實現高效推理,並擁有長達8,192個標記的擴展上下文窗口。
預期用途與侷限性
預期用途
該模型旨在根據安全和道德標準對醫療文本進行分類,尤其側重於癌症相關內容。它可用於評估醫療文檔的安全性,確保符合既定的道德準則。
侷限性
雖然該模型在大量特定癌症文本語料庫上進行了訓練,但其在腫瘤學以外的醫學領域的性能尚未得到評估。用戶在將該模型應用於非癌症相關的醫療內容時應謹慎。
訓練數據
模型在從The Blue Scrubs數據集中提取的一個新的、平衡的子集上進行了重新訓練,以解決高安全性文本過度代表的問題。具體如下:
- 我們掃描了所有文件中的總共11,500,608行,並因解析/NaN/0/超出範圍等問題刪除了112,330行,剩下11,388,278行有效行。
- 在這些有效行中,41,818行的安全分數 ≤ 2,而11,346,460行的安全分數 > 2。
- 為了平衡數據集,我們隨機抽樣文檔,使不安全(≤ 2)和較安全(> 2)的文本得到平等代表。這產生了一個最終的平衡集,總共83,636行。
每行保留了其來自Llama 3.1(70B)的原始連續安全分數,範圍從1(最不安全)到5(最安全)。這些分數在訓練期間再次作為迴歸目標。
訓練過程
預處理
使用ModernBERT分詞器對文本進行分詞,最大序列長度為4,096個標記。由於數據被認為是可靠的,因此沒有應用額外的過濾。
訓練超參數
- 學習率:2e - 5
- 訓練輪數:5
- 批次大小:20(每個設備)
- 梯度累積步數:8
- 優化器:AdamW
- 權重衰減:0.01
- FP16訓練:啟用
- 總訓練步數:現在在最終平衡集上約為5個訓練輪次
所有其他超參數設置(例如,批次大小、優化器選擇)與之前的訓練保持相同。僅更改了學習率、訓練輪數和平衡數據集。
評估
測試數據
模型的性能在一個樣本外測試集上進行了評估,該測試集包含The Blue Scrubs數據集中未包含在訓練集中的癌症相關文檔。
評估指標
- 均方誤差(MSE):衡量預測安全分數與實際安全分數之間的平均平方差。
- 準確率:通過將預測結果二值化(不安全 ≤ 2與安全 > 2)來確定。
- ROC分析:評估模型區分安全和不安全內容的能力。
評估結果
- MSE:0.489
- RMSE:0.699
- 準確率:0.9642
- ROC分析:顯示出強大的分類能力,具有高真陽性率和低假陽性率。
偏差、風險和侷限性
該模型在包含各種醫學領域的The Blue Scrubs數據集的精選子集上進行了訓練,但某些領域可能仍然代表性不足。與任何模型一樣,存在因數據組成而產生偏差的風險,用戶在應用該分類器時應謹慎,尤其是在高度專業化的環境中。輸出結果應始終與專家意見和當前臨床指南進行核對,以確保醫療使用的安全性和準確性。
建議
用戶應在其特定數據集上驗證模型的性能,並在必要時考慮在特定領域數據上對模型進行微調。建議進行持續監測和評估,以確保模型的預測符合當前的醫學標準和道德準則。
引用
如果您在研究或應用中使用此模型,請按以下方式引用:
@misc{thebluescrubs2025modernbert,
author = {TheBlueScrubs},
title = {ModernBERT Medical Safety Classifier},
year = {2025},
publisher = {Hugging Face},
url = {https://https://huggingface.co/TheBlueScrubs/ModernBERT-base-TBS}
}
模型卡片作者