Openvision Vit Base Patch8 160
Apache-2.0
OpenVision-ViT-Tiny 是一個全開放、高性價比的先進視覺編碼器,屬於 OpenVision 家族的一部分,專注於多模態學習。
圖像分類
Transformers

O
UCSC-VLAA
26
0
Openvision Vit Small Patch8 384
Apache-2.0
OpenVision是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
多模態融合
O
UCSC-VLAA
21
0
Openvision Vit Small Patch16 224
Apache-2.0
OpenVision是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
圖像增強
O
UCSC-VLAA
17
0
Openvision Vit Tiny Patch16 160
Apache-2.0
OpenVision是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
多模態融合
Transformers

O
UCSC-VLAA
30
0
Aimv2 1b Patch14 224.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,具有10億參數規模,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
198
0
Sam2 Hiera Tiny.fb R896 2pt1
Apache-2.0
基於HieraDet圖像編碼器的SAM2模型,專注於圖像特徵提取任務。
目標檢測
Transformers

S
timm
37
0
Sam2 Hiera Small.fb R896
Apache-2.0
基於HieraDet圖像編碼器的SAM2模型,專注於圖像特徵提取任務。
圖像分割
Transformers

S
timm
142
0
Sam2 Hiera Base Plus.fb R896 2pt1
Apache-2.0
基於HieraDet圖像編碼器的SAM2模型權重,專注於圖像特徵提取任務
圖像分割
Transformers

S
timm
148
0
Sam2 Hiera Base Plus.fb R896
Apache-2.0
基於HieraDet圖像編碼器的SAM2模型,專注於圖像特徵提取任務。
圖像分割
Transformers

S
timm
764
0
Resnet101 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet101圖像編碼器,通過全局平均池化(GAP)提取圖像特徵
圖像分類
Transformers

R
timm
104
0
Dinov2 With Registers Base Imagenet1k 1 Layer
Apache-2.0
基於Transformer架構的視覺變換器模型,通過DINOv2方法訓練並引入寄存器機制,解決了傳統ViT模型的偽影問題
圖像分類
Transformers

D
facebook
693
2
Ijepa Vith16 1k
I-JEPA是一種自監督學習方法,通過圖像部分表徵預測同一圖像其他部分的表徵,無需依賴預設的手工數據變換或像素級細節填充。
圖像分類
Transformers

I
facebook
153
0
Ijepa Vith14 22k
I-JEPA是一種自監督學習方法,通過圖像部分表徵預測同一圖像其他部分的表徵,無需依賴預設的手工數據變換或像素級細節填充。
圖像分類
Transformers

I
facebook
48
0
Mambavision T2 1K
其他
首個結合Mamba與Transformer優勢的計算機視覺混合模型,通過重新設計Mamba公式增強視覺特徵建模能力,並在Mamba架構中融入自注意力模塊提升長程空間依賴建模。
圖像分類
Transformers

M
nvidia
597
4
Sscd Copy Detection
Apache-2.0
SSCD 是一個用於圖像複製檢測的深度學習模型,能夠提取圖像特徵並進行相似度比較。
圖像分類
Transformers

S
m3
48
1
Vit Large Patch16 224.orig In21k
Apache-2.0
基於Vision Transformer(ViT)的圖像分類模型,由Google Research在JAX框架下使用ImageNet-21k預訓練,後移植到PyTorch。適用於特徵提取和微調場景。
圖像分類
Transformers

V
timm
584
2
Vit Base Patch16 224.orig In21k
Apache-2.0
基於Vision Transformer的圖像分類模型,在ImageNet-21k上預訓練,適用於特徵提取和微調
圖像分類
Transformers

V
timm
23.07k
1
Eva02 Tiny Patch14 224.mim In22k
MIT
EVA02是一個視覺Transformer模型,通過掩碼圖像建模在ImageNet-22k上預訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

E
timm
385
1
Eva02 Small Patch14 224.mim In22k
MIT
EVA02特徵/表示模型,通過掩碼圖像建模在ImageNet-22k上預訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

E
timm
705
0
Eva02 Base Patch14 224.mim In22k
MIT
EVA02基礎版視覺表示模型,通過掩碼圖像建模在ImageNet-22k上預訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

E
timm
2,834
6
Face Discriminator 2
Apache-2.0
基於ResNet-50微調的人臉分類模型,在評估集上準確率達到94.16%
圖像分類
Transformers

F
petrznel
23
0
Google Vit Base Patch16 224 Cartoon Face Recognition
Apache-2.0
基於Google Vision Transformer (ViT)架構微調的卡通人臉識別模型,在圖像分類任務上表現優異
人臉相關
Transformers

G
jayanta
62
2
Convnextv2 Nano.fcmae
ConvNeXt-V2自監督特徵表示模型,採用全卷積掩碼自編碼器框架(FCMAE)進行預訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

C
timm
265
0
Vit Small Patch16 224.dino
Apache-2.0
基於視覺Transformer(ViT)的圖像特徵模型,採用自監督DINO方法訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

V
timm
70.62k
4
Vit Small Patch8 224.dino
Apache-2.0
基於視覺Transformer(ViT)的自監督圖像特徵提取模型,採用DINO方法訓練
圖像分類
Transformers

V
timm
8,904
2
Vit Large Patch32 224.orig In21k
Apache-2.0
基於Vision Transformer (ViT)架構的圖像分類模型,在ImageNet-21k數據集上預訓練,適用於特徵提取和微調場景。
圖像分類
Transformers

V
timm
771
0
Vit Base Patch16 224.dino
Apache-2.0
基於自監督DINO方法訓練的Vision Transformer(ViT)圖像特徵模型,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

V
timm
33.45k
5
Vit Base Patch8 224.dino
Apache-2.0
基於自監督DINO方法訓練的視覺Transformer(ViT)圖像特徵模型,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

V
timm
9,287
1
Resnet34 Sketch Classifier
基於ResNet-34架構的草圖分類器,在TU-Berlin數據集上進行了微調訓練,適用於草圖識別和分類任務。
圖像分類
Transformers

R
kmewhort
705
1
Dino Resnet 50
使用DINO自監督學習方法預訓練的ResNet-50模型,適用於視覺特徵提取任務
圖像分類
Transformers

D
Ramos-Ramos
106
0
Vit Msn Base 4
Apache-2.0
該視覺Transformer模型採用MSN方法預訓練,在少樣本場景下表現優異,適用於圖像分類等任務
圖像分類
Transformers

V
facebook
62
1
Regnet Y 006
Apache-2.0
RegNet是一種通過神經架構搜索設計的圖像分類模型,在imagenet-1k數據集上訓練。
圖像分類
Transformers

R
facebook
18
0
Regnet X 040
Apache-2.0
基於imagenet-1k訓練的RegNet模型,通過神經架構搜索設計的高效視覺模型
圖像分類
Transformers

R
facebook
69
1
Vit Huge Patch14 224 In21k
Apache-2.0
基於ImageNet-21k預訓練的視覺Transformer模型,採用超大尺寸架構,適用於圖像分類等視覺任務。
圖像分類
V
google
47.78k
20
Vit Base Patch32 224 In21k
Apache-2.0
該視覺變換器(ViT)模型在ImageNet-21k數據集上以224x224分辨率進行了預訓練,適用於圖像分類任務。
圖像分類
V
google
35.10k
19
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98