🚀 MONET (医学概念检索器)
MONET是一个基于医学文献的图像 - 文本基础模型,可用于医学图像的透明AI分析。它通过大量皮肤病学图像与自然语言描述的配对训练,能准确标注皮肤病图像中的概念,助力AI在整个开发流程中的透明化。
🚀 快速开始
你可以通过以下链接了解更多关于MONET的信息:
✨ 主要特性
- 精准标注:MONET能准确标注皮肤病图像中的概念,经专业皮肤科医生验证,其性能可与基于临床图像的皮肤病数据集训练的监督模型相媲美。
- AI透明化:该模型有助于在整个AI系统开发流程中实现透明化,从构建可解释模型到进行数据集和模型审计。
📚 详细文档
模型详情
CLIP模型由OpenAI的研究人员开发,旨在研究计算机视觉任务中的鲁棒性因素,并测试模型在零样本情况下对任意图像分类任务的泛化能力。该模型并非为通用模型部署而开发,研究人员在部署类似CLIP的模型之前,需要仔细研究其在特定环境中的能力。
模型类型
基础模型使用ViT - L/14 Transformer架构作为图像编码器,并使用掩码自注意力Transformer作为文本编码器。这些编码器通过对比损失进行训练,以最大化(图像,文本)对的相似度。
原始实现有两种变体:一种使用ResNet图像编码器,另一种使用视觉Transformer。本仓库使用的是视觉Transformer变体。
属性 |
详情 |
模型类型 |
基础模型使用ViT - L/14 Transformer架构作为图像编码器,使用掩码自注意力Transformer作为文本编码器,通过对比损失训练以最大化(图像,文本)对的相似度。 |
训练数据 |
105,550张皮肤病学图像与来自大量医学文献的自然语言描述配对。 |
模型使用
预期用途
该模型旨在作为研究成果供研究社区使用。我们希望这个模型能让研究人员更好地理解和探索零样本、任意图像分类。我们也希望它能用于跨学科研究,分析此类模型的潜在影响 - CLIP论文中包含了对潜在下游影响的讨论,为这种分析提供了一个示例。
主要预期用户
这些模型的主要预期用户是AI研究人员。
我们主要设想研究人员将使用该模型来更好地理解计算机视觉模型的鲁棒性、泛化能力以及其他能力、偏差和限制。
非预期用例
- 任何部署用例:目前,模型的任何部署用例(无论是否商业用途)都不在预期范围内。非部署用例,如在受限环境中的图像搜索,除非对模型进行了针对特定、固定类别分类法的全面领域内测试,否则也不建议使用。这是因为我们的安全评估表明,特别是考虑到CLIP在不同类别分类法下的性能差异,非常需要进行特定任务的测试。这使得目前在任何未经测试和不受限制的用例中部署该模型都可能存在潜在危害。
- 监控和人脸识别领域:某些属于监控和人脸识别领域的用例,无论模型性能如何,始终不在预期范围内。这是因为目前缺乏确保公平使用的测试规范和检查,使用人工智能进行此类任务可能还为时过早。
- 非英语语言用例:由于该模型未针对英语以外的任何语言进行专门训练或评估,其使用应限于英语用例。
📄 许可证
Disclaimer: The model card is taken and modified from the official CLIP repository, it can be found here.
📚 引用
如果你使用了MONET模型,请引用以下论文:
@article{kim2024transparent,
title={Transparent medical image AI via an image–text foundation model grounded in
medical literature},
author={Chanwoo Kim and Soham U. Gadgil and Alex J. DeGrave and Jesutofunmi A. Omiye and Zhuo Ran Cai and Roxana Daneshjou and Su-In Lee},
journal={Nature Medicine},
year={2024},
doi={10.1038/s41591-024-02887-x},
url={https://doi.org/10.1038/s41591-024-02887-x}
}