🚀 QuiltNet-B-32
QuiltNet-B-32 是一個基於 CLIP ViT-B/32 的視覺 - 語言基礎模型,它在從具有代表性的組織病理學視頻中精心挑選的 Quilt-1M 數據集上進行訓練。該模型能夠執行各種視覺 - 語言處理(VLP)任務,如跨模態檢索、圖像分類和視覺問答等。QuiltNet 在眾多標準數據集上創造了新的最優成績,並且顯著優於之前的 VLP 方法。
🚀 快速開始
模型簡介
QuiltNet-B-32 是基於 CLIP ViT-B/32 的視覺 - 語言基礎模型,在 Quilt-1M 數據集上訓練,可執行多種視覺 - 語言處理任務。
效果展示

✨ 主要特性
- 能夠執行跨模態檢索、圖像分類和視覺問答等多種視覺 - 語言處理任務。
- 在眾多標準數據集上創造了新的最優成績,顯著優於之前的 VLP 方法。
📚 詳細文檔
引用信息
@misc{ikezogwo2023quilt1m,
title={Quilt-1M: One Million Image-Text Pairs for Histopathology},
author={Wisdom Oluchi Ikezogwo and Mehmet Saygin Seyfioglu and Fatemeh Ghezloo and Dylan Stefan Chan Geva and Fatwir Sheikh Mohammed and Pavan Kumar Anand and Ranjay Krishna and Linda Shapiro},
year={2023},
eprint={2306.11207},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
使用場景
直接使用
可用於零樣本圖像分類、圖像和文本檢索等任務。
下游使用
可用於圖像分類和其他圖像任務的微調、線性探針圖像分類、圖像生成的引導和條件設置等。
預期用途
該模型是為研究社區提供的研究成果。希望它能幫助研究人員更好地理解和探索零樣本、任意圖像分類,也可用於跨學科研究此類模型的潛在影響。
主要預期用戶
主要面向 AI 研究人員。研究人員可利用該模型更好地理解計算機視覺組織病理學模型的魯棒性、泛化能力以及其他特性、偏差和侷限性。
超出預期的使用場景
目前,該模型的任何部署使用場景(無論是否商業用途)都超出了預期範圍。非部署使用場景,如在受限環境中的圖像搜索,除非對模型進行了特定、固定類別分類法的全面領域測試,否則也不建議使用。由於該模型僅在英語環境下進行訓練和評估,其使用應僅限於英語用例。此外,用於訓練這些模型的 Quilt - 1M 數據集還有其他注意事項。
訓練數據
該模型使用 QUILT - 1M 數據集進行訓練,這是一個用於組織病理學的圖像 - 文本數據集。QUILT - 1M 從 YouTube 上的教育視頻中精心挑選,為組織病理學的視覺語言建模提供了最大的數據集。
⚠️ 重要提示
創建該數據集的動機是推動圍繞大規模多模態模型訓練以及處理從公共互聯網爬取的未整理、大規模組織病理學數據集的研究和實驗。因此,建議僅將該數據集用於研究目的。
評估
使用 [CLIP Benchmark suite](https://github.com/LAION - AI/CLIP_benchmark) 中的代碼進行評估,評估結果可在相關論文中找到,涉及一系列不同的組織學任務和數據集。
免責聲明
需要注意的是,使用此模型獲得的結果並非用於提供醫療建議,也不能替代與合格醫療專業人員的諮詢。使用此模型完全由用戶自行承擔風險,且應符合適用的法律、法規和道德考量。我們不保證該模型對於任何特定目的的準確性、完整性、適用性或有用性,並特此聲明對因依賴此模型或使用其獲得的任何結果而產生的任何責任不承擔任何責任。
隱私聲明
根據 YouTube 的隱私政策,我們僅重新分發視頻 ID 數據。嚴格禁止重新分發除視頻 ID 以外的任何內容。任何分發行為都必須遵守您所在司法管轄區適用的法律法規,包括出口管制法律和禁運規定。