🚀 MONET (醫學概念檢索器)
MONET是一個基於醫學文獻的圖像 - 文本基礎模型,可用於醫學圖像的透明AI分析。它通過大量皮膚病學圖像與自然語言描述的配對訓練,能準確標註皮膚病圖像中的概念,助力AI在整個開發流程中的透明化。
🚀 快速開始
你可以通過以下鏈接瞭解更多關於MONET的信息:
✨ 主要特性
- 精準標註:MONET能準確標註皮膚病圖像中的概念,經專業皮膚科醫生驗證,其性能可與基於臨床圖像的皮膚病數據集訓練的監督模型相媲美。
- AI透明化:該模型有助於在整個AI系統開發流程中實現透明化,從構建可解釋模型到進行數據集和模型審計。
📚 詳細文檔
模型詳情
CLIP模型由OpenAI的研究人員開發,旨在研究計算機視覺任務中的魯棒性因素,並測試模型在零樣本情況下對任意圖像分類任務的泛化能力。該模型並非為通用模型部署而開發,研究人員在部署類似CLIP的模型之前,需要仔細研究其在特定環境中的能力。
模型類型
基礎模型使用ViT - L/14 Transformer架構作為圖像編碼器,並使用掩碼自注意力Transformer作為文本編碼器。這些編碼器通過對比損失進行訓練,以最大化(圖像,文本)對的相似度。
原始實現有兩種變體:一種使用ResNet圖像編碼器,另一種使用視覺Transformer。本倉庫使用的是視覺Transformer變體。
屬性 |
詳情 |
模型類型 |
基礎模型使用ViT - L/14 Transformer架構作為圖像編碼器,使用掩碼自注意力Transformer作為文本編碼器,通過對比損失訓練以最大化(圖像,文本)對的相似度。 |
訓練數據 |
105,550張皮膚病學圖像與來自大量醫學文獻的自然語言描述配對。 |
模型使用
預期用途
該模型旨在作為研究成果供研究社區使用。我們希望這個模型能讓研究人員更好地理解和探索零樣本、任意圖像分類。我們也希望它能用於跨學科研究,分析此類模型的潛在影響 - CLIP論文中包含了對潛在下游影響的討論,為這種分析提供了一個示例。
主要預期用戶
這些模型的主要預期用戶是AI研究人員。
我們主要設想研究人員將使用該模型來更好地理解計算機視覺模型的魯棒性、泛化能力以及其他能力、偏差和限制。
非預期用例
- 任何部署用例:目前,模型的任何部署用例(無論是否商業用途)都不在預期範圍內。非部署用例,如在受限環境中的圖像搜索,除非對模型進行了針對特定、固定類別分類法的全面領域內測試,否則也不建議使用。這是因為我們的安全評估表明,特別是考慮到CLIP在不同類別分類法下的性能差異,非常需要進行特定任務的測試。這使得目前在任何未經測試和不受限制的用例中部署該模型都可能存在潛在危害。
- 監控和人臉識別領域:某些屬於監控和人臉識別領域的用例,無論模型性能如何,始終不在預期範圍內。這是因為目前缺乏確保公平使用的測試規範和檢查,使用人工智能進行此類任務可能還為時過早。
- 非英語語言用例:由於該模型未針對英語以外的任何語言進行專門訓練或評估,其使用應限於英語用例。
📄 許可證
Disclaimer: The model card is taken and modified from the official CLIP repository, it can be found here.
📚 引用
如果你使用了MONET模型,請引用以下論文:
@article{kim2024transparent,
title={Transparent medical image AI via an image–text foundation model grounded in
medical literature},
author={Chanwoo Kim and Soham U. Gadgil and Alex J. DeGrave and Jesutofunmi A. Omiye and Zhuo Ran Cai and Roxana Daneshjou and Su-In Lee},
journal={Nature Medicine},
year={2024},
doi={10.1038/s41591-024-02887-x},
url={https://doi.org/10.1038/s41591-024-02887-x}
}