Midnight
模型概述
該模型專注於組織病理學圖像特徵提取,採用改進的DINOv2框架,適用於計算病理學領域
模型特點
小數據高效訓練
僅使用12k全切片圖像(WSI)訓練,數據量比同類模型減少100倍
高分辨率後訓練
通過高分辨率後訓練提升嵌入質量,特別適合病理圖像分析
領域優化架構
針對病理學特點改進DINOv2框架,包含色彩增強和分塊過濾等技術
模型能力
病理圖像特徵提取
組織學分類
病理圖像分割
基因表達預測
使用案例
醫療診斷
乳腺癌分類
對乳腺癌組織切片進行分類分析
在BreaKHis數據集上達到0.840準確率
結直腸癌檢測
識別結直腸癌組織特徵
在CRC數據集上達到0.967準確率
醫學研究
基因表達預測
從病理圖像預測基因表達模式
在HEST基準上達到0.412性能
🚀 Kaiko midnight
Midnight - 用少幾個數量級的數據訓練最先進的病理學基礎模型
本倉庫包含了論文 "Training state-of-the-art pathology foundation models with orders of magnitude less data" 中提出的 Midnight-12k 模型的檢查點。儘管我們的模型在訓練時使用的全切片圖像(WSIs)數量顯著減少,但與領先的病理學基礎模型(FMs)相比,仍能取得有競爭力的性能。
🚀 快速開始
本倉庫提供了 Midnight-12k 模型的檢查點,可用於病理學相關任務。在使用模型前,請確保按照以下步驟準備好數據集。
✨ 主要特性
- 提出了一種基於 DINOv2 的改進自監督訓練框架,針對計算病理學優化了模型性能。
- 訓練了三種新穎的病理學基礎模型,使用的數據量顯著減少(最多減少 100 倍的 WSIs)。
- 引入高分辨率後訓練,提高了嵌入質量。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests
from torchvision.transforms import v2
url = 'https://upload.wikimedia.org/wikipedia/commons/8/80/Breast_DCIS_histopathology_%281%29.jpg'
image = Image.open(requests.get(url, stream=True).raw)
transform = v2.Compose(
[
v2.Resize(224),
v2.CenterCrop(224),
v2.ToTensor(),
v2.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5)),
]
)
model = AutoModel.from_pretrained('kaiko-ai/midnight')
高級用法
提取用於分類的嵌入
對於分割任務,模型輸出對應 16x16 的補丁令牌(由 224/14 = 16 得出)。
import torch
def extract_classification_embedding(tensor):
cls_embedding, patch_embeddings = tensor[:, 0, :], tensor[:, 1:, :]
return torch.cat([cls_embedding, patch_embeddings.mean(1)], dim=-1)
batch = transform(image).unsqueeze(dim=0)
embedding = extract_classification_embedding(model(batch).last_hidden_state)
print(f"Embedding shape: {embedding[0].shape}")
提取用於分割的嵌入
import math
import torch
def extract_segmentation_embedding(tensor):
features = tensor[:, 1:, :].permute(0, 2, 1)
batch_size, hidden_size, patch_grid = features.shape
height = width = int(math.sqrt(patch_grid))
return features.view(batch_size, hidden_size, height, width)
batch = transform(image).unsqueeze(dim=0)
embedding = extract_segmentation_embedding(model(batch).last_hidden_state)
print(f"Embedding shape: {embedding[0].shape}")
📚 詳細文檔
模型亮點
- Midnight-12k:僅在公開可用的 TCGA 數據集(12k WSIs)上進行訓練。
- Midnight-92k:在 TCGA 數據集和荷蘭癌症研究所(NKI-80k)的專有數據集上進行訓練。
- Midnight-92k/392:我們表現最佳的模型,經過高分辨率後訓練進行微調。
模型權重
- Midnight-12k:根據寬鬆的 MIT 許可證,可在 此處 公開獲取。
- Midnight-92k 和 Midnight-92k/392:在專有數據集上進行訓練,訪問受限。
訓練數據集
屬性 | 詳情 |
---|---|
數據集 | TCGA:公開,僅 FFPE;NKI-80k:專有,10,141 名患者,31 個器官 |
WSIs 數量 | TCGA:12k;NKI-80k:80k |
訓練組件
- DINOv2:使用 DINOv2 進行自監督訓練。
- KDE 正則化器:替換 DINOv2 中的 KoLeo,以確保嵌入多樣性和訓練穩定性。
- 在線打補丁:高效即時提取信息豐富的圖塊。
- 顏色增強(HED):提高對染色變化的魯棒性。
- 圖塊過濾:去除低信息含量的組織區域。
評估
使用兩組開源基準對模型進行了全面評估:
我們表現最佳的模型 Midnight-92k/392 始終優於或與 Virchow2 和 UNI-2 等領先模型相匹配。
結果總結
模型 | 平均值 | PCam 10 次採樣 | BACH | BRACS | BreaKHis | CRC | Gleason | MHIST | PCam | Cam16(小) | Panda(小) | CoNSeP | MoNuSAC | HEST |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Midnight-92k/392 | 0.778 | 0.900 | 0.904 | 0.646 | 0.802 | 0.966 | 0.807 | 0.828 | 0.951 | 0.868 | 0.651 | 0.662 | 0.708 | 0.415 |
UNI-2 | 0.776 | 0.885 | 0.924 | 0.651 | 0.863 | 0.970 | 0.777 | 0.829 | 0.951 | 0.873 | 0.666 | 0.626 | 0.644 | 0.431 |
Midnight-92k | 0.767 | 0.882 | 0.889 | 0.615 | 0.793 | 0.967 | 0.823 | 0.831 | 0.948 | 0.872 | 0.643 | 0.629 | 0.656 | 0.425 |
Virchow2 | 0.766 | 0.835 | 0.890 | 0.633 | 0.818 | 0.966 | 0.791 | 0.865 | 0.938 | 0.860 | 0.646 | 0.640 | 0.674 | 0.403 |
Midnight-12k | 0.763 | 0.803 | 0.907 | 0.639 | 0.840 | 0.967 | 0.790 | 0.815 | 0.931 | 0.869 | 0.656 | 0.625 | 0.664 | 0.412 |
Kaiko-B8 | 0.757 | 0.799 | 0.876 | 0.641 | 0.842 | 0.960 | 0.761 | 0.830 | 0.920 | 0.836 | 0.650 | 0.644 | 0.686 | 0.391 |
H-Optimus-0 | 0.755 | 0.831 | 0.752 | 0.620 | 0.813 | 0.962 | 0.769 | 0.850 | 0.943 | 0.847 | 0.672 | 0.644 | 0.687 | 0.425 |
Prov_GigaPath | 0.752 | 0.853 | 0.794 | 0.626 | 0.846 | 0.959 | 0.727 | 0.831 | 0.944 | 0.812 | 0.657 | 0.628 | 0.688 | 0.405 |
Hibou-L | 0.751 | 0.825 | 0.792 | 0.643 | 0.767 | 0.954 | 0.766 | 0.850 | 0.949 | 0.852 | 0.654 | 0.646 | 0.668 | 0.397 |
UNI | 0.749 | 0.833 | 0.797 | 0.613 | 0.808 | 0.954 | 0.759 | 0.841 | 0.937 | 0.854 | 0.662 | 0.627 | 0.662 | 0.391 |
Phikon | 0.724 | 0.826 | 0.744 | 0.579 | 0.715 | 0.946 | 0.743 | 0.824 | 0.919 | 0.822 | 0.648 | 0.624 | 0.644 | 0.377 |
Phikon-v2 | 0.718 | 0.756 | 0.737 | 0.607 | 0.725 | 0.953 | 0.753 | 0.796 | 0.900 | 0.807 | 0.634 | 0.626 | 0.645 | 0.391 |
Lunit | 0.714 | 0.763 | 0.785 | 0.627 | 0.759 | 0.943 | 0.758 | 0.785 | 0.905 | 0.759 | 0.604 | 0.600 | 0.630 | 0.362 |
vitg14 (nat. img.) | 0.674 | 0.721 | 0.724 | 0.578 | 0.783 | 0.943 | 0.740 | 0.855 | 0.881 | 0.500 | 0.509 | 0.565 | 0.614 | 0.351 |
vitg14 (initial) | 0.493 | 0.652 | 0.474 | 0.413 | 0.425 | 0.754 | 0.459 | 0.578 | 0.763 | 0.526 | 0.304 | 0.462 | 0.432 | 0.166 |
🔧 技術細節
文檔未提及具體技術實現細節(>50 字),故跳過此章節。
📄 許可證
本項目採用 MIT 許可證。
引用
@article{KDK2025,
title={Training state-of-the-art pathology foundation models with orders of magnitude less data},
author={Mikhail Karasikov and Joost van Doorn and Nicolas Känzig and Melis Erdal Cesur and Hugo Mark Horlings and Robert Berke and Fei Tang and Sebastian Otálora},
year={2025},
journal={arXiv preprint arXiv:2504.05186},
url={https://arxiv.org/abs/2504.05186},
}
Nsfw Image Detection
Apache-2.0
基於ViT架構的NSFW圖像分類模型,通過監督學習在ImageNet-21k數據集上預訓練,並在80,000張圖像上微調,用於區分正常和NSFW內容。
圖像分類
Transformers

N
Falconsai
82.4M
588
Fairface Age Image Detection
Apache-2.0
基於Vision Transformer架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於多類別圖像分類任務
圖像分類
Transformers

F
dima806
76.6M
10
Dinov2 Small
Apache-2.0
基於DINOv2方法訓練的小尺寸視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
5.0M
31
Vit Base Patch16 224
Apache-2.0
基於ImageNet-21k預訓練和ImageNet微調的視覺變換器模型,用於圖像分類任務
圖像分類
V
google
4.8M
775
Vit Base Patch16 224 In21k
Apache-2.0
基於ImageNet-21k數據集預訓練的視覺Transformer模型,用於圖像分類任務。
圖像分類
V
google
2.2M
323
Dinov2 Base
Apache-2.0
基於DINOv2方法訓練的視覺Transformer模型,通過自監督學習提取圖像特徵
圖像分類
Transformers

D
facebook
1.9M
126
Gender Classification
一個基於PyTorch和HuggingPics構建的圖像分類模型,用於識別圖像中的性別
圖像分類
Transformers

G
rizvandwiki
1.8M
48
Vit Base Nsfw Detector
Apache-2.0
基於Vision Transformer (ViT)架構的圖像分類模型,專門用於檢測圖像是否包含NSFW(不安全)內容。
圖像分類
Transformers

V
AdamCodd
1.2M
47
Vit Hybrid Base Bit 384
Apache-2.0
混合視覺變換器(ViT)模型結合了卷積網絡和Transformer架構,用於圖像分類任務,在ImageNet上表現出色。
圖像分類
Transformers

V
google
992.28k
6
Gender Classification 2
這是一個基於PyTorch框架和HuggingPics工具生成的圖像分類模型,專門用於性別分類任務。
圖像分類
Transformers

G
rizvandwiki
906.98k
32
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98