🚀 QuiltNet-B-16 介绍
QuiltNet-B-16 是一个基于 CLIP 的 ViT-B/16 视觉 - 语言基础模型,它在从具有代表性的组织病理学视频中精心挑选的 Quilt-1M 数据集上进行训练。该模型能够执行各种视觉 - 语言处理(VLP)任务,如跨模态检索、图像分类和视觉问答。QuiltNet 在众多标准数据集上建立了新的最优水平,并且显著优于先前的 VLP 方法:

🚀 快速开始
本部分将为您介绍 QuiltNet-B-16 模型的基本情况和使用方式。
✨ 主要特性
- 多任务处理:能够执行跨模态检索、图像分类和视觉问答等多种视觉 - 语言处理(VLP)任务。
- 性能卓越:在众多标准数据集上建立了新的最优水平,显著优于先前的 VLP 方法。
📚 详细文档
模型描述
QuiltNet-B-16 是一个 CLIP ViT-B/16 视觉 - 语言基础模型,在 Quilt-1M 数据集上训练。该数据集是从具有代表性的组织病理学视频中精心挑选而来。它可以执行各种视觉 - 语言处理(VLP)任务,如跨模态检索、图像分类和视觉问答。
使用场景
直接使用
下游使用
- 图像分类和其他图像任务的微调
- 线性探针图像分类
- 图像生成引导和条件设定
预期用途
本模型是为研究社区提供的研究成果。我们希望该模型能帮助研究人员更好地理解和探索零样本、任意图像分类。同时,也希望它能用于跨学科研究,探讨此类模型的潜在影响。
主要预期用户
主要预期用户为人工智能研究人员。我们主要设想研究人员使用该模型,以更好地理解计算机视觉组织病理学模型的鲁棒性、泛化能力以及其他特性、偏差和限制。
超出范围的用例
- 任何部署用例:目前,模型的任何部署用例(无论是否商业用途)都超出了范围。非部署用例(如在受限环境中的图像搜索),除非对模型进行了特定、固定类别的全面领域测试,否则也不建议使用。
- 语言限制:由于模型仅在英语上进行训练和评估,其使用应仅限于英语用例。
训练数据
本模型在 QUILT-1M 数据集上进行训练,这是一个用于组织病理学的图像 - 文本数据集。QUILT-1M 从 YouTube 上的教育视频中精心挑选而来,为组织病理学的视觉语言建模贡献了最大的数据集。
⚠️ 重要提示
创建该数据集的动机是为了推动大规模多模态模型训练以及处理从公开互联网爬取的未整理大规模组织病理学数据集的研究和实验。因此,我们建议将该数据集用于研究目的。
评估
使用 CLIP Benchmark 套件 中的代码进行评估,评估结果可在相关论文中找到,涉及一系列不同的组织学任务和数据集。
免责声明
需要注意的是,使用此功能获得的结果并非旨在提供医疗建议,也不能替代与合格医疗专业人员的咨询。使用此功能完全由您自行承担风险,且应符合适用的法律、法规和道德考量。我们不保证此功能对于任何特定目的的准确性、完整性、适用性或实用性,并且特此声明不承担因依赖此功能或使用其获得的任何结果而产生的任何责任。
隐私
根据 YouTube 的隐私政策,我们仅重新分发视频 ID 数据。严格禁止重新分发除视频 ID 以外的任何内容。任何分发行为都必须遵守您所在司法管辖区适用的法律法规,包括出口管制法律和禁运规定。
📄 许可证
本模型遵循 MIT 许可证。
📚 引用
@misc{ikezogwo2023quilt1m,
title={Quilt-1M: One Million Image-Text Pairs for Histopathology},
author={Wisdom Oluchi Ikezogwo and Mehmet Saygin Seyfioglu and Fatemeh Ghezloo and Dylan Stefan Chan Geva and Fatwir Sheikh Mohammed and Pavan Kumar Anand and Ranjay Krishna and Linda Shapiro},
year={2023},
eprint={2306.11207},
archivePrefix={arXiv},
primaryClass={cs.CV}
}