🚀 ModernBERT医疗安全分类器
ModernBERT医疗安全分类器是一个基于Transformer的语言模型,经过微调后可评估不同医学领域中医护文本的安全性和道德标准。它基于ModernBERT架构构建,利用Llama 3.1(70B)的强大评估能力,将该模型的安全和道德见解提炼成一个更小、更快的分类器。具体来说,它在新策划的、平衡的The Blue Scrubs数据集子集(共83,636份文档)上进行训练,每个文档都由Llama 3.1(70B)标注了安全性和道德合规性。通过将这些大模型评估结果迁移到ModernBERT中,得到的分类器在保持强大预测准确性的同时,还足够轻量级,可用于实时或资源受限的推理。
✨ 主要特性
- 强大评估能力:借助Llama 3.1(70B)的评估能力,将安全和道德见解融入模型。
- 轻量级设计:在保持准确性的同时,适合实时或资源受限的推理。
- 先进架构:采用ModernBERT架构,结合多种创新技术,实现高效推理和扩展上下文窗口。
📦 安装指南
文档中未提及具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained("TheBlueScrubs/ModernBERT-base-TBS")
model = AutoModelForSequenceClassification.from_pretrained("TheBlueScrubs/ModernBERT-base-TBS")
text = "Your medical text here."
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=4096)
outputs = model(**inputs)
predictions = outputs.logits
safety_score = predictions.item()
print(f"Safety Score: {safety_score}")
📚 详细文档
模型详情
ModernBERT是一种先进的仅编码器模型,融合了旋转位置嵌入、局部 - 全局交替注意力和Flash注意力等最新创新技术,能够实现高效推理,并拥有长达8,192个标记的扩展上下文窗口。
预期用途与局限性
预期用途
该模型旨在根据安全和道德标准对医疗文本进行分类,尤其侧重于癌症相关内容。它可用于评估医疗文档的安全性,确保符合既定的道德准则。
局限性
虽然该模型在大量特定癌症文本语料库上进行了训练,但其在肿瘤学以外的医学领域的性能尚未得到评估。用户在将该模型应用于非癌症相关的医疗内容时应谨慎。
训练数据
模型在从The Blue Scrubs数据集中提取的一个新的、平衡的子集上进行了重新训练,以解决高安全性文本过度代表的问题。具体如下:
- 我们扫描了所有文件中的总共11,500,608行,并因解析/NaN/0/超出范围等问题删除了112,330行,剩下11,388,278行有效行。
- 在这些有效行中,41,818行的安全分数 ≤ 2,而11,346,460行的安全分数 > 2。
- 为了平衡数据集,我们随机抽样文档,使不安全(≤ 2)和较安全(> 2)的文本得到平等代表。这产生了一个最终的平衡集,总共83,636行。
每行保留了其来自Llama 3.1(70B)的原始连续安全分数,范围从1(最不安全)到5(最安全)。这些分数在训练期间再次作为回归目标。
训练过程
预处理
使用ModernBERT分词器对文本进行分词,最大序列长度为4,096个标记。由于数据被认为是可靠的,因此没有应用额外的过滤。
训练超参数
- 学习率:2e - 5
- 训练轮数:5
- 批次大小:20(每个设备)
- 梯度累积步数:8
- 优化器:AdamW
- 权重衰减:0.01
- FP16训练:启用
- 总训练步数:现在在最终平衡集上约为5个训练轮次
所有其他超参数设置(例如,批次大小、优化器选择)与之前的训练保持相同。仅更改了学习率、训练轮数和平衡数据集。
评估
测试数据
模型的性能在一个样本外测试集上进行了评估,该测试集包含The Blue Scrubs数据集中未包含在训练集中的癌症相关文档。
评估指标
- 均方误差(MSE):衡量预测安全分数与实际安全分数之间的平均平方差。
- 准确率:通过将预测结果二值化(不安全 ≤ 2与安全 > 2)来确定。
- ROC分析:评估模型区分安全和不安全内容的能力。
评估结果
- MSE:0.489
- RMSE:0.699
- 准确率:0.9642
- ROC分析:显示出强大的分类能力,具有高真阳性率和低假阳性率。
偏差、风险和局限性
该模型在包含各种医学领域的The Blue Scrubs数据集的精选子集上进行了训练,但某些领域可能仍然代表性不足。与任何模型一样,存在因数据组成而产生偏差的风险,用户在应用该分类器时应谨慎,尤其是在高度专业化的环境中。输出结果应始终与专家意见和当前临床指南进行核对,以确保医疗使用的安全性和准确性。
建议
用户应在其特定数据集上验证模型的性能,并在必要时考虑在特定领域数据上对模型进行微调。建议进行持续监测和评估,以确保模型的预测符合当前的医学标准和道德准则。
引用
如果您在研究或应用中使用此模型,请按以下方式引用:
@misc{thebluescrubs2025modernbert,
author = {TheBlueScrubs},
title = {ModernBERT Medical Safety Classifier},
year = {2025},
publisher = {Hugging Face},
url = {https://https://huggingface.co/TheBlueScrubs/ModernBERT-base-TBS}
}
模型卡片作者