🚀 QuiltNet-B-32
QuiltNet-B-32 是一个基于 CLIP ViT-B/32 的视觉 - 语言基础模型,它在从具有代表性的组织病理学视频中精心挑选的 Quilt-1M 数据集上进行训练。该模型能够执行各种视觉 - 语言处理(VLP)任务,如跨模态检索、图像分类和视觉问答等。QuiltNet 在众多标准数据集上创造了新的最优成绩,并且显著优于之前的 VLP 方法。
🚀 快速开始
模型简介
QuiltNet-B-32 是基于 CLIP ViT-B/32 的视觉 - 语言基础模型,在 Quilt-1M 数据集上训练,可执行多种视觉 - 语言处理任务。
效果展示

✨ 主要特性
- 能够执行跨模态检索、图像分类和视觉问答等多种视觉 - 语言处理任务。
- 在众多标准数据集上创造了新的最优成绩,显著优于之前的 VLP 方法。
📚 详细文档
引用信息
@misc{ikezogwo2023quilt1m,
title={Quilt-1M: One Million Image-Text Pairs for Histopathology},
author={Wisdom Oluchi Ikezogwo and Mehmet Saygin Seyfioglu and Fatemeh Ghezloo and Dylan Stefan Chan Geva and Fatwir Sheikh Mohammed and Pavan Kumar Anand and Ranjay Krishna and Linda Shapiro},
year={2023},
eprint={2306.11207},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
使用场景
直接使用
可用于零样本图像分类、图像和文本检索等任务。
下游使用
可用于图像分类和其他图像任务的微调、线性探针图像分类、图像生成的引导和条件设置等。
预期用途
该模型是为研究社区提供的研究成果。希望它能帮助研究人员更好地理解和探索零样本、任意图像分类,也可用于跨学科研究此类模型的潜在影响。
主要预期用户
主要面向 AI 研究人员。研究人员可利用该模型更好地理解计算机视觉组织病理学模型的鲁棒性、泛化能力以及其他特性、偏差和局限性。
超出预期的使用场景
目前,该模型的任何部署使用场景(无论是否商业用途)都超出了预期范围。非部署使用场景,如在受限环境中的图像搜索,除非对模型进行了特定、固定类别分类法的全面领域测试,否则也不建议使用。由于该模型仅在英语环境下进行训练和评估,其使用应仅限于英语用例。此外,用于训练这些模型的 Quilt - 1M 数据集还有其他注意事项。
训练数据
该模型使用 QUILT - 1M 数据集进行训练,这是一个用于组织病理学的图像 - 文本数据集。QUILT - 1M 从 YouTube 上的教育视频中精心挑选,为组织病理学的视觉语言建模提供了最大的数据集。
⚠️ 重要提示
创建该数据集的动机是推动围绕大规模多模态模型训练以及处理从公共互联网爬取的未整理、大规模组织病理学数据集的研究和实验。因此,建议仅将该数据集用于研究目的。
评估
使用 [CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark) 中的代码进行评估,评估结果可在相关论文中找到,涉及一系列不同的组织学任务和数据集。
免责声明
需要注意的是,使用此模型获得的结果并非用于提供医疗建议,也不能替代与合格医疗专业人员的咨询。使用此模型完全由用户自行承担风险,且应符合适用的法律、法规和道德考量。我们不保证该模型对于任何特定目的的准确性、完整性、适用性或有用性,并特此声明对因依赖此模型或使用其获得的任何结果而产生的任何责任不承担任何责任。
隐私声明
根据 YouTube 的隐私政策,我们仅重新分发视频 ID 数据。严格禁止重新分发除视频 ID 以外的任何内容。任何分发行为都必须遵守您所在司法管辖区适用的法律法规,包括出口管制法律和禁运规定。