🚀 Path Foundation模型卡片
Path Foundation是一款用於組織病理學應用的機器學習模型。它能夠生成嵌入向量,可用於在蘇木精和伊紅(H&E)全切片圖像(WSI)的組織病理學分析任務中,以更少的數據和計算資源高效訓練分類器模型。
🚀 快速開始
你可以通過以下鏈接獲取模型的相關資源:
使用條款:Health AI Developer Foundations使用條款
作者:Google
✨ 主要特性
- 高效訓練:通過自監督學習生成嵌入向量,能以更少的數據和計算資源訓練分類器模型。
- 廣泛應用:生成的嵌入向量可用於多種下游任務,如癌症檢測、分類和分級等。
- 特徵空間探索:可用於探索組織病理學圖像的特徵空間,助力生物標誌物開發。
📦 安裝指南
以下是一些示例代碼片段,可幫助你快速在本地運行模型。如果你想大規模使用該模型,建議使用Model Garden創建生產版本。
from PIL import Image as PILImage
from huggingface_hub import hf_hub_download, from_pretrained_keras
import tensorflow as tf
import numpy as np
hf_hub_download(repo_id="google/path-foundation", filename='Test.png', local_dir='.')
img = PILImage.open("Test.png").crop((0, 0, 224, 224)).convert('RGB')
tensor = tf.cast(tf.expand_dims(np.array(img), axis=0), tf.float32) / 255.0
loaded_model = from_pretrained_keras("google/path-foundation")
infer = loaded_model.signatures["serving_default"]
embeddings = infer(tf.constant(tensor))
embedding_vector = embeddings['output_0'].numpy().flatten()
💻 使用示例
基礎用法
以下是在本地運行模型的示例代碼:
from PIL import Image as PILImage
from huggingface_hub import hf_hub_download, from_pretrained_keras
import tensorflow as tf
import numpy as np
hf_hub_download(repo_id="google/path-foundation", filename='Test.png', local_dir='.')
img = PILImage.open("Test.png").crop((0, 0, 224, 224)).convert('RGB')
tensor = tf.cast(tf.expand_dims(np.array(img), axis=0), tf.float32) / 255.0
loaded_model = from_pretrained_keras("google/path-foundation")
infer = loaded_model.signatures["serving_default"]
embeddings = infer(tf.constant(tensor))
embedding_vector = embeddings['output_0'].numpy().flatten()
高級用法
你可以參考以下Colab筆記本瞭解如何使用Path Foundation進行更高級的應用:
📚 詳細文檔
模型架構概述
Path Foundation採用ViT - S架構,並使用Masked Siamese Networks在不同放大倍數下進行特定領域的調優和優化。模型提供的特徵表示為組織病理學的下游任務提供了強大的輸入。更多信息可參考預印本Domain - specific optimization and diverse evaluation of self - supervised models for histopathology。
技術規格
性能和驗證
在涉及17種獨特組織類型、跨越不同最佳放大倍數和任務類型的11個基準任務的多樣化集合上進行了線性探針評估。更多詳細信息,包括幻燈片級任務(如組織類型分類和分子發現)以及數據滴定微調的額外結果,請參閱論文。
關鍵性能指標
- 93% - 一套組織病理學分類任務的線性探測AUC。95%置信區間:[92.9 - 93.8]
輸入和輸出
- 輸入:來自蘇木精和伊紅(H&E)全切片圖像(WSIs)的224 x 224像素圖像塊。Path Foundation與[EZ - WSI](https://github.com/GoogleCloudPlatform/EZ - WSI - DICOMweb/tree/main)緊密集成,這是一個用於數字病理學的庫,可將WSIs處理為圖像塊併發送到模型。
- 輸出:浮點值的嵌入向量(維度:384)。
🔧 技術細節
數據集詳情
訓練數據集
訓練數據由來自The Cancer Genome Atlas(TCGA)的蘇木精和伊紅染色(H&E)WSIs組成,可在https://portal.gdc.cancer.gov訪問。訓練使用了跨越三种放大倍數(~2 µm/像素、~1 µm/像素、~0.5 µm/像素)和32項實體腫瘤TCGA研究(代表不同癌症類型,訓練數據包括腫瘤和多種非腫瘤圖像塊)的6000萬個圖像塊。
標註
模型使用自監督學習進行訓練,即未使用監督標籤。用於衡量模型在下游任務上性能的標籤通過病理學家註釋或幻燈片級元數據提供。
軟件
訓練使用[JAX](https://github.com/jax - ml/jax)進行。JAX允許研究人員利用包括TPU在內的最新一代硬件,以更快、更高效地訓練大型模型。
📄 許可證
Path Foundation的使用受Health AI Developer Foundations使用條款的約束。
數據引用
Path Foundation的結果全部或部分基於TCGA研究網絡生成的數據。
使用和限制
預期用途
- Path Foundation可減少開發針對H&E病理切片的特定任務模型所需的訓練數據、計算資源和技術專業知識。
- 模型的嵌入向量可用於各種用戶定義的下游任務,包括但不限於:癌症檢測、分類和分級;元數據預測(染色、組織類型、標本類型等);質量評估(如圖像偽影);以及相似圖像搜索。
- 嵌入向量還可用於探索組織病理學圖像的特徵空間,以開發與預後和預測任務相關的生物標誌物。
優點
- Path Foundation嵌入向量可用於H&E組織病理學圖像分析的AI開發,與傳統方法相比,所需的數據和計算資源顯著減少。
- 通過利用Path Foundation訓練的大量預訓練圖像,用戶所需的數據更少,但可以構建比在更有限數據集上訓練的模型更具泛化能力的模型。
- 提供組織病理學圖像塊的豐富、壓縮表示。
- 幫助用戶以更少的數據和計算資源為各種不同應用構建AI分類器。
限制
以下是一些已知的可能降低模型性能或降低對模型結果信心的因素:
- 該模型僅在涉及H&E組織病理學的許多潛在下游任務中的有限數量上進行了驗證。
- 此模型版本僅在來自有限數量的掃描儀和國家的H&E圖像上進行了訓練和驗證。
- 模型輸出可能無法很好地泛化到訓練中未使用的其他圖像類型、患者群體或掃描儀制造商的數據。
- 特定任務的驗證仍然是最終用戶進行下游模型開發的重要方面。
- 訓練和驗證是在對應於5x、10x和20x放大倍數(分別約為2 µm/像素、1 µm/像素和0.5 µm/像素)的圖像塊上進行的。使用對應於其他放大倍數的輸入圖像塊尚未進行評估。
- 該模型僅用於生成用戶提供數據的嵌入向量,本身不生成任何預測或診斷。
- 與任何研究一樣,開發人員應確保任何下游應用都經過驗證,以瞭解使用與特定應用預期使用環境(如年齡、性別、病情、掃描儀等)適當代表的數據的性能。