Groupvit Gcc Yfcc
GroupViT是一種視覺-語言模型,能夠在任何給定的詞彙類別上執行零樣本語義分割。
Downloads 3,473
Release Time : 6/21/2022
Model Overview
GroupViT是一種受CLIP啟發的視覺-語言模型,通過文本監督學習將圖像區域分組並進行語義分割,無需像素級標註即可實現零樣本遷移。
Model Features
零樣本語義分割
無需像素級標註,僅通過文本監督即可學習語義分割
分層分組機制
通過分層的分組視覺變換器將圖像區域逐步分組為更大、任意形狀的片段
文本監督學習
在大規模圖像-文本數據集上通過對比損失聯合訓練視覺和文本編碼器
Model Capabilities
圖像語義分割
零樣本遷移學習
視覺-語言理解
Use Cases
計算機視覺
語義分割
對圖像中的對象進行語義分割
在PASCAL VOC 2012上達到52.3% mIoU,PASCAL Context上達到22.4% mIoU
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98