🚀 CXR Foundation模型卡
CXR Foundation是一個專為加速胸部X光圖像分析的AI開發而設計的機器學習模型。它通過對大量胸部X光圖像進行預訓練,生成能夠捕捉圖像特徵的嵌入向量,從而實現用更少的數據和計算資源高效訓練AI模型。
🚀 快速開始
若要快速在Hugging Face上開始使用,請參考 快速入門筆記本。
若要大規模使用該模型,建議通過 Model Garden 創建生產版本。
✨ 主要特性
- 高效訓練:基於大量胸部X光圖像預訓練,生成的嵌入向量可使AI模型訓練所需的數據和計算資源顯著減少。
- 兩種嵌入類型:
- ELIXR v2.0:生成32x768維向量,捕捉與X光分析相關的詳細圖像特徵。
- ELIXR-contrastive / v2.0 text:生成32x128維向量,可將胸部X光圖像和文本提示投影到共享嵌入空間,支持語義圖像檢索和零樣本分類等強大應用。
- 多任務支持:可用於數據高效分類、零樣本分類、語義圖像檢索、視覺問答和報告質量保證等多種任務。
📦 安裝指南
文檔未提及具體安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
若要快速嘗試該模型,可使用Hugging Face的權重在本地運行,參考 Colab中的快速入門筆記本。
高級用法
📚 詳細文檔
模型信息
描述
CXR Foundation通過對大量胸部X光圖像進行預訓練,生成的嵌入向量能捕捉與圖像分析相關的密集特徵。與傳統方法相比,這些嵌入向量可使AI模型在訓練時使用更少的數據和計算資源。
模型架構概述
該模型採用 EfficientNet-L2架構 和 BERT架構。使用來自美國和印度的821,544張胸部X光圖像進行訓練,標籤為異常與正常(即圖像是否包含任何異常),採用 監督對比損失 以及相關放射學報告、CLIP損失 和 BLIP-2損失。異常與正常標籤從更細粒度的標籤(如氣胸、骨折)以及 放射學報告的正則表達式 中獲得。
技術規格
性能和驗證
CXR Foundation在數據高效分類、零樣本分類、語義圖像檢索、視覺問答和報告質量保證等一系列不同任務中進行了評估。
關鍵性能指標
- 數據高效分類:在CheXPert測試中,對肺不張、心臟擴大、實變、胸腔積液和肺水腫的平均AUC為0.898。
- 零樣本分類:在CheXpert測試中,對13種病症的平均AUC為0.846,包括肺不張、心臟擴大、實變、胸腔積液、肺水腫、心縱隔增寬、其他胸腔疾病、氣胸、支持設備、肺野模糊、肺部病變、肺炎和骨折。
- 語義圖像檢索:在19個語義圖像檢索查詢中,歸一化折損累積增益(NDCG)@5為0.76,其中12個查詢實現了完美檢索。
- 參考:ELIXR:通過大語言模型和放射視覺編碼器的對齊構建通用X光人工智能系統
輸入和輸出
- 輸入:序列化的
tf.Example
(在 image/encoded
特徵鍵中寫入 PNG
圖像的字節)。
- 輸出:嵌入向量(表示將原始圖像投影到壓縮特徵空間的浮點向量)。
數據集詳情
訓練數據集
CXR Foundation使用以下去標識數據集進行訓練:
- MIMIC-CXR:包含60,523名獨特患者的243,324張圖像。
- 來自伊利諾伊州一家學術醫療中心的私有美國數據集:包含12,988名獨特患者的165,182張圖像。
- 來自五家印度醫院的私有數據集:包含348,335名獨特患者的485,082張圖像。
標註
使用監督學習從放射學報告中標記異常和正常的人類數據。然後應用醫學調優的大語言模型Med-Palm 2 29確保標籤與報告一致,並由一位獲得認證的胸科放射科醫生(CL)對MIMIC-CXR中模型結果與真實情況不同的案例進行裁決。
實現信息
軟件
使用 JAX 進行訓練。JAX使研究人員能夠利用包括TPU在內的最新一代硬件,更快、更高效地訓練大型模型。
使用和限制
預期用途
- 數據高效分類:使用少量標記數據,可在CXR Foundation嵌入向量(ELIXR v2.0)之上訓練分類器模型。每個嵌入向量可作為各種不同分類器的輸入,幾乎無需額外計算。例如臨床病症檢測、X光圖像質量判斷、X光視圖或身體部位確定、設備存在判斷、導管錯位發現等。
- 零樣本分類:通過對比模式(ELIXR-contrastive / v2.0 text),用戶無需額外訓練數據,通過文本提示即可獲得分類分數。零樣本分類通過測量圖像嵌入向量與正、負文本提示的相對距離來工作。在訓練數據較少時,零樣本方法性能優於數據高效分類;而數據量較大時,數據高效分類性能更優。
- 語義圖像檢索:通過對比模式(ELIXR-contrastive / v2.0 text),用戶可根據搜索查詢對一組X光圖像進行排序。與零樣本分類類似,基於語言的圖像檢索依賴於圖像嵌入向量與搜索查詢文本嵌入向量之間的距離。
優點
- 與傳統方法相比,CXR Foundation嵌入向量可顯著減少胸部X光圖像分析AI開發所需的數據和計算資源。
- 利用大量預訓練圖像,用戶可使用更少的數據構建更具泛化能力的模型。
限制
- 模型僅使用來自美國和印度的去標識數據進行訓練,可能無法很好地泛化到其他國家、患者群體或未用於訓練的製造商的數據。
- 模型僅在有限數量的胸部X光下游任務中進行了驗證。
- 建議圖像質量和最小分辨率為1024x1024。
- 模型僅用於生成用戶提供數據的嵌入向量,本身不進行任何預測或診斷。
- 最終用戶在下游模型開發中,特定任務的驗證仍然是重要的一環。
- 開發者應確保任何下游應用在使用與特定應用預期使用場景(如年齡、性別、病症、掃描儀等)相匹配的數據進行驗證,以瞭解其性能。
🔧 技術細節
CXR Foundation的研究背景可參考以下論文:
📄 許可證
CXR Foundation的使用受 Health AI Developer Foundations使用條款 約束。
數據引用
- MIMIC-CXR Johnson, A., Pollard, T., Mark, R., Berkowitz, S., & Horng, S. (2024). MIMIC-CXR Database (version 2.1.0). PhysioNet.
- Johnson, A.E.W., Pollard, T.J., Berkowitz, S.J. et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Sci Data 6, 317 (2019).
- [Available on Physionet Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. e215–e220.
⚠️ 重要提示
若要在Hugging Face上訪問CXR Foundation,您需要查看並同意 Health AI Developer Foundation的使用條款。請確保您已登錄Hugging Face並點擊下方按鈕。請求將立即處理。
模型文檔:CXR Foundation
資源:
作者:Google