G

Groupvit Gcc Yfcc

由nvidia開發
GroupViT是一種視覺-語言模型,能夠在任何給定的詞彙類別上執行零樣本語義分割。
下載量 3,473
發布時間 : 6/21/2022

模型概述

GroupViT是一種受CLIP啟發的視覺-語言模型,通過文本監督學習將圖像區域分組並進行語義分割,無需像素級標註即可實現零樣本遷移。

模型特點

零樣本語義分割
無需像素級標註,僅通過文本監督即可學習語義分割
分層分組機制
通過分層的分組視覺變換器將圖像區域逐步分組為更大、任意形狀的片段
文本監督學習
在大規模圖像-文本數據集上通過對比損失聯合訓練視覺和文本編碼器

模型能力

圖像語義分割
零樣本遷移學習
視覺-語言理解

使用案例

計算機視覺
語義分割
對圖像中的對象進行語義分割
在PASCAL VOC 2012上達到52.3% mIoU,PASCAL Context上達到22.4% mIoU
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase