🚀 QuiltNet-B-16 介紹
QuiltNet-B-16 是一個基於 CLIP 的 ViT-B/16 視覺 - 語言基礎模型,它在從具有代表性的組織病理學視頻中精心挑選的 Quilt-1M 數據集上進行訓練。該模型能夠執行各種視覺 - 語言處理(VLP)任務,如跨模態檢索、圖像分類和視覺問答。QuiltNet 在眾多標準數據集上建立了新的最優水平,並且顯著優於先前的 VLP 方法:

🚀 快速開始
本部分將為您介紹 QuiltNet-B-16 模型的基本情況和使用方式。
✨ 主要特性
- 多任務處理:能夠執行跨模態檢索、圖像分類和視覺問答等多種視覺 - 語言處理(VLP)任務。
- 性能卓越:在眾多標準數據集上建立了新的最優水平,顯著優於先前的 VLP 方法。
📚 詳細文檔
模型描述
QuiltNet-B-16 是一個 CLIP ViT-B/16 視覺 - 語言基礎模型,在 Quilt-1M 數據集上訓練。該數據集是從具有代表性的組織病理學視頻中精心挑選而來。它可以執行各種視覺 - 語言處理(VLP)任務,如跨模態檢索、圖像分類和視覺問答。
使用場景
直接使用
下游使用
- 圖像分類和其他圖像任務的微調
- 線性探針圖像分類
- 圖像生成引導和條件設定
預期用途
本模型是為研究社區提供的研究成果。我們希望該模型能幫助研究人員更好地理解和探索零樣本、任意圖像分類。同時,也希望它能用於跨學科研究,探討此類模型的潛在影響。
主要預期用戶
主要預期用戶為人工智能研究人員。我們主要設想研究人員使用該模型,以更好地理解計算機視覺組織病理學模型的魯棒性、泛化能力以及其他特性、偏差和限制。
超出範圍的用例
- 任何部署用例:目前,模型的任何部署用例(無論是否商業用途)都超出了範圍。非部署用例(如在受限環境中的圖像搜索),除非對模型進行了特定、固定類別的全面領域測試,否則也不建議使用。
- 語言限制:由於模型僅在英語上進行訓練和評估,其使用應僅限於英語用例。
訓練數據
本模型在 QUILT-1M 數據集上進行訓練,這是一個用於組織病理學的圖像 - 文本數據集。QUILT-1M 從 YouTube 上的教育視頻中精心挑選而來,為組織病理學的視覺語言建模貢獻了最大的數據集。
⚠️ 重要提示
創建該數據集的動機是為了推動大規模多模態模型訓練以及處理從公開互聯網爬取的未整理大規模組織病理學數據集的研究和實驗。因此,我們建議將該數據集用於研究目的。
評估
使用 CLIP Benchmark 套件 中的代碼進行評估,評估結果可在相關論文中找到,涉及一系列不同的組織學任務和數據集。
免責聲明
需要注意的是,使用此功能獲得的結果並非旨在提供醫療建議,也不能替代與合格醫療專業人員的諮詢。使用此功能完全由您自行承擔風險,且應符合適用的法律、法規和道德考量。我們不保證此功能對於任何特定目的的準確性、完整性、適用性或實用性,並且特此聲明不承擔因依賴此功能或使用其獲得的任何結果而產生的任何責任。
隱私
根據 YouTube 的隱私政策,我們僅重新分發視頻 ID 數據。嚴格禁止重新分發除視頻 ID 以外的任何內容。任何分發行為都必須遵守您所在司法管轄區適用的法律法規,包括出口管制法律和禁運規定。
📄 許可證
本模型遵循 MIT 許可證。
📚 引用
@misc{ikezogwo2023quilt1m,
title={Quilt-1M: One Million Image-Text Pairs for Histopathology},
author={Wisdom Oluchi Ikezogwo and Mehmet Saygin Seyfioglu and Fatemeh Ghezloo and Dylan Stefan Chan Geva and Fatwir Sheikh Mohammed and Pavan Kumar Anand and Ranjay Krishna and Linda Shapiro},
year={2023},
eprint={2306.11207},
archivePrefix={arXiv},
primaryClass={cs.CV}
}