# 高精度視覺模型

Comp SigLIP So400M
Apache-2.0
CoMP-MM-1B是一個支持原生圖像分辨率輸入的視覺基礎模型(VFM),基於SigLIP持續預訓練而成。
多模態融合
C
SliMM-X
33
1
Sam2 Hiera Base Plus.fb R896 2pt1
Apache-2.0
基於HieraDet圖像編碼器的SAM2模型權重,專注於圖像特徵提取任務
圖像分割 Transformers
S
timm
148
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,採用全局平均池化,適用於圖像特徵提取任務。
圖像分類 Transformers
V
timm
13
0
Florence 2 Large Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺與視覺-語言任務。
文本生成圖像 Transformers
F
microsoft
269.44k
349
Resnet50x16 Clip.openai
MIT
基於CLIP框架的ResNet50x16視覺模型,支持零樣本圖像分類任務
圖像分類
R
timm
702
0
Resnet50x4 Clip.openai
MIT
基於CLIP架構的ResNet50x4視覺語言模型,支持零樣本圖像分類任務
圖像生成文本
R
timm
2,303
0
Vit Bigg 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2模型,專注於零樣本圖像分類任務,通過對比式圖文訓練實現高效視覺表示學習
文本生成圖像
V
UCSC-VLAA
623
4
Vit H 14 CLIPA 336 Datacomp1b
Apache-2.0
CLIPA-v2模型,一種高效的對比式圖文模型,專注於零樣本圖像分類任務。
文本生成圖像
V
UCSC-VLAA
493
4
Vit H 14 CLIPA Datacomp1b
Apache-2.0
CLIPA-v2模型,一個高效的對比式圖文模型,專為零樣本圖像分類任務設計。
文本生成圖像
V
UCSC-VLAA
65
1
Vit H 14 CLIPA 336 Laion2b
Apache-2.0
CLIPA-v2模型,基於laion2B-en數據集訓練,專注於零樣本圖像分類任務
文本生成圖像
V
UCSC-VLAA
74
4
Vit Base Patch16 224 In21k
基於Transformer架構的視覺模型,通過16x16圖像塊處理224x224分辨率輸入,在ImageNet-21k數據集上預訓練
圖像分類 Transformers
V
Xenova
132
3
Eva02 Enormous Patch14 Plus Clip 224.laion2b S9b B144k
MIT
基於EVA02架構的大規模視覺語言模型,支持零樣本圖像分類任務
文本生成圖像
E
timm
12.57k
8
Eva Giant Patch14 Plus Clip 224.merged2b S11b B114k
MIT
EVA-Giant是基於CLIP架構的大規模視覺-語言模型,支持零樣本圖像分類任務。
文本生成圖像
E
timm
1,080
1
Car Brands Classification
Apache-2.0
基於BEiT架構的預訓練圖像分類模型,支持越南語標籤,適用於視覺任務
圖像分類 Transformers 其他
C
lamnt2008
19
3
Convnext Large 224 22k 1k
Apache-2.0
ConvNeXT是一個純卷積模型,受視覺Transformer設計啟發,在ImageNet-22k上預訓練並在ImageNet-1k上微調,性能優於傳統視覺Transformer。
圖像分類 Transformers
C
facebook
13.71k
3
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase