G

Groupvit Gcc Yfcc

Developed by nvidia
GroupViT是一種視覺-語言模型,能夠在任何給定的詞彙類別上執行零樣本語義分割。
Downloads 3,473
Release Time : 6/21/2022

Model Overview

GroupViT是一種受CLIP啟發的視覺-語言模型,通過文本監督學習將圖像區域分組並進行語義分割,無需像素級標註即可實現零樣本遷移。

Model Features

零樣本語義分割
無需像素級標註,僅通過文本監督即可學習語義分割
分層分組機制
通過分層的分組視覺變換器將圖像區域逐步分組為更大、任意形狀的片段
文本監督學習
在大規模圖像-文本數據集上通過對比損失聯合訓練視覺和文本編碼器

Model Capabilities

圖像語義分割
零樣本遷移學習
視覺-語言理解

Use Cases

計算機視覺
語義分割
對圖像中的對象進行語義分割
在PASCAL VOC 2012上達到52.3% mIoU,PASCAL Context上達到22.4% mIoU
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase