模型简介
模型特点
模型能力
使用案例
🚀 H0-mini 模型卡
H0-mini
是由 Owkin 和 Bioptimus 开发的一款轻量级组织学基础模型。该模型能够在显著降低推理成本的情况下,达到与当前组织学基础模型相当的性能,并且对染色和扫描协议的变化表现出较强的鲁棒性。
🚀 快速开始
H0-mini
可用于不同的下游应用,既可以直接使用,也可以进行微调。例如,可使用多实例学习算法(如 ABMIL [4])进行切片级分类。
提取特征的代码示例
以下代码片段展示了如何使用 H0-Mini
从组织学图像中提取特征。我们建议将 CLS 标记(cls_features
)作为下游任务的输入特征,在某些任务中,将 CLS 标记特征与 patch 标记特征的平均值连接起来(concatenated_features
)可能会带来一些性能提升。
from huggingface_hub import login
import torch
import timm
from timm.data import resolve_data_config
from timm.data.transforms_factory import create_transform
from torchvision import transforms
# Login to the Hugging Face hub, using your user access token that can be found here:
# https://huggingface.co/settings/tokens.
login()
model = timm.create_model(
"hf-hub:bioptimus/H0-mini",
pretrained=True,
mlp_layer=timm.layers.SwiGLUPacked,
act_layer=torch.nn.SiLU,
)
model.to("cuda")
model.eval()
transform = create_transform(**resolve_data_config(model.pretrained_cfg, model=model))
input = torch.rand(3, 224, 224)
input = transforms.ToPILImage()(input)
# We recommend using mixed precision for faster inference.
with torch.autocast(device_type="cuda", dtype=torch.float16):
with torch.inference_mode():
output = model(transform(input).unsqueeze(0).to("cuda")) # (1, 261, 768)
# CLS token features (1, 768):
cls_features = output[:, 0]
# Patch token features (1, 256, 768):
patch_token_features = output[:, model.num_prefix_tokens :]
# Concatenate the CLS token features with the mean of the patch token
# features (1, 1536):
concatenated_features = torch.cat(
[cls_features, patch_token_features.mean(1)], dim=-1
)
assert cls_features.shape == (1, 768)
assert patch_token_features.shape == (1, 256, 768)
assert concatenated_features.shape == (1, 1536)
这些特征可用于下游应用,如 ROI 分类(通过线性或 k-NN 探测)、切片分类(通过多实例学习)、分割(例如通过 ViT-Adapter)等。
✨ 主要特性
- 轻量级设计:
H0-mini
是一款轻量级的组织学基础模型,在降低推理成本的同时,能达到与当前组织学基础模型相当的性能。 - 鲁棒性强:对染色和扫描协议的变化表现出较强的鲁棒性。
📦 安装指南
软件依赖
- torch>==2.0.0: https://pytorch.org
- torchvision>=0.15.0: https://pytorch.org/vision/stable/index.html
- xformers>=0.0.18: https://github.com/facebookresearch/xformers
📚 详细文档
H0-mini
是一个基于 Vision Transformer Base/14 的模型,它通过 DINOv2 [2] 自监督蒸馏方法从 H-optimus-0
[1] (ViT-g/14) 中蒸馏而来,训练数据为 PanCancer40M
,这是一个从 TCGA 的 6093 张组织学切片中提取的 4300 万个组织学图块的集合。
更多详细信息请参考 ArXiv 预印本。
图:PLISM 数据集 [3] 中模型对染色和扫描条件的鲁棒性评估 - 为每个提取器计算了 4095 对切片的前 10 名准确率中位数与平均余弦相似度。对于两个轴,值越高表示模型越鲁棒。
📄 许可证
本模型和相关代码遵循 CC-BY-NC-ND 4.0 许可证发布,仅可用于非商业性的学术研究目的,并需进行适当的引用。
重要使用限制
- 商业使用限制:禁止对 H0-mini 模型及其衍生模型(包括基于 H0-mini 模型输出训练的模型或由 H0-mini 模型创建的数据集)进行任何商业使用、销售或其他货币化操作,如需商业使用,请事先获得批准。
- 注册要求:下载模型需要事先在 Hugging Face 上注册并同意使用条款。注册时使用的主要电子邮件必须与您的机构电子邮件匹配,@gmail/@hotmail/@qq 等电子邮件域名将被拒绝。
- 数据使用限制:用户不得尝试重新识别用于开发基础模型的去标识化数据。
- 无担保声明:本模型“按原样”提供,不提供任何形式的明示或暗示保证。该模型未经过任何监管机构的审查、认证或批准,包括但不限于美国食品药品监督管理局 (FDA)、欧洲药品管理局 (EMA)、英国药品和保健品管理局 (MHRA) 或其他医疗器械监管机构。在医疗保健或生物医学环境中应用此模型时,必须遵守相关监管要求并进行独立验证。
- 责任承担:用户对如何使用此模型及由此产生的任何后果承担全部责任。作者、贡献者和分发者对因模型使用导致的直接或间接损害不承担任何责任。用户在涉及患者数据的研究中使用该模型时,有责任确保遵守数据保护法规(如 GDPR、HIPAA)。
如果您是商业实体,请通过 hello [at] bioptimus.com 与我们联系,讨论许可选项。
下载所需信息
在下载模型时,您需要提供以下信息:
属性 | 详情 |
---|---|
全名(名和姓) | 文本输入 |
当前所属机构(不使用缩写) | 文本输入 |
所属机构类型 | 可选择:学术界、工业界、其他 |
当前和官方的机构电子邮件(必须与您 Hugging Face 账户中的主要电子邮件匹配,@gmail/@hotmail/@qq 电子邮件域名将被拒绝) | 文本输入 |
主要用例 | 可选择:各种任务的模型基准测试、生物标志物发现、诊断、病理工作流程加速(细胞和组织分割等)、其他 |
请添加您预期的研究用途信息 | 文本输入 |
我同意上述所有条款 | 勾选框 |
我同意不分发模型,如果您所在组织的其他用户希望使用 H0-mini 模型,他们必须作为独立用户注册 | 勾选框 |
我同意仅将此模型用于非商业性的学术目的 | 勾选框 |
我有兴趣接收 Bioptimus 的更新信息 | 勾选框(可选) |
🔧 技术细节
模型架构
H0-mini
是一个 Vision Transformer Base/14 模型,通过 DINOv2 [2] 自监督蒸馏方法从 H-optimus-0
[1] (ViT-g/14) 中蒸馏而来。
训练数据
训练数据为 PanCancer40M
,这是一个从 TCGA 的 6093 张组织学切片中提取的 4300 万个组织学图块的集合。
🔗 致谢
计算资源
本研究获得了 GENCI 分配的 IDRIS 高性能计算 (HPC) 资源,分配编号为 2023 - A0141012519、2024 - A0161012519 和 2024 - GC011015442。
代码基础
H0-mini
基于 DINOv2 代码库构建(遵循 Apache License 2.0)。
数据集
本研究部分结果基于 TCGA 研究网络生成的数据:https://www.cancer.gov/tcga。
📚 参考文献
- Saillard, C., Jenatton, R., Llinares - López, F., Mariet, Z., Cahané, D., Durand, E., Vert, J. - P., 2024. H - optimus - 0.
- Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., ... & Bojanowski, P. (2023). Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193.
- Ochi, M., Komura, D., Onoyama, T., Shinbo, K., Endo, H., Odaka, H., ... & Ishikawa, S. (2024). Registered multi - device/staining histology image dataset for domain - agnostic machine learning models. Scientific Data, 11(1), 330.
- Ilse, M., Tomczak, J., & Welling, M. (2018, July). Attention - based deep multiple instance learning. In International conference on machine learning (pp. 2127 - 2136). PMLR.









