# 高分辨率處理

Webssl Dino7b Full8b 378
基於80億無語言標註網絡圖像訓練的70億參數視覺Transformer模型,通過自監督學習實現卓越的視覺表徵能力
圖像分類 Transformers
W
facebook
68
0
Auramask Ensemble Poprocket
Gpl-3.0
該模型使用改進的vnet架構進行圖像到圖像處理,支持對抗性、美學和質量增強等任務
圖像生成
A
logasja
15
0
Auramask Ensemble Moon
Gpl-3.0
該模型使用改進的vnet架構進行2D圖像處理,專注於圖像到圖像的轉換任務,具有對抗性和美學優化特性。
圖像生成
A
logasja
17
0
C RADIOv2 G
其他
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種規格版本,適用於圖像理解和密集處理任務。
Transformers
C
nvidia
648
11
C RADIOv2 B
其他
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種尺寸版本,適用於圖像理解和密集視覺任務。
Transformers
C
nvidia
404
8
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,具有3B參數規模,適用於圖像特徵提取任務。
圖像分類 Transformers
A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,適用於圖像特徵提取任務。
圖像分類 Transformers
A
timm
35
0
Resnet50x64 Clip Gap.openai
Apache-2.0
基於ResNet50架構的CLIP模型圖像編碼器,具有64倍寬度擴展,使用全局平均池化(GAP)策略
圖像分類 Transformers
R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet50x16變體模型,專注於圖像特徵提取
圖像分類 Transformers
R
timm
129
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
圖像分類 Transformers
V
timm
128
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
基於SigLIP圖像編碼器的視覺模型,採用全局平均池化,是PaliGemma項目的一部分
文本生成圖像 Transformers
V
timm
15
1
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,採用全局平均池化處理圖像特徵
圖像分類 Transformers
V
timm
96
0
Vit Base Patch16 Siglip 512.webli
Apache-2.0
基於SigLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類 Transformers
V
timm
702
0
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
基於SigLIP的ViT-B-16視覺Transformer模型,僅包含圖像編碼器,採用原始注意力池化
圖像分類 Transformers
V
timm
16
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
基於CLIP架構的ConvNeXt-Large圖像編碼器,在LAION-2B數據集上微調,支持320x320分辨率圖像特徵提取
圖像分類 Transformers
C
timm
173
0
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RS是針對遙感圖像領域優化的多模態模型,基於Mini-InternVL架構,通過領域適配框架微調,在遙感圖像理解任務上表現優異。
圖像生成文本 Transformers 其他
M
OpenGVLab
61
1
Coreml DepthPro
DepthPro 是一種單目深度估計模型,能夠通過單張圖像預測深度。
3D視覺
C
KeighBee
17
4
Timesformer Hr Finetuned K600
TimeSformer-HR 是一個基於視頻的動作識別模型,專門針對高分辨率視頻進行了優化,並在 Kinetics-600 數據集上進行了微調。
視頻處理 Transformers
T
onnx-community
17
0
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型,能夠從單張或多張圖像重建3D場景。
3D視覺
D
naver
46.93k
14
C RADIO
其他
NVIDIA開發的視覺特徵提取模型,用於生成圖像嵌入,支持下游任務如圖像分類。
Transformers
C
nvidia
398
14
Vit L 14 336
MIT
基於Vision Transformer架構的大規模視覺語言模型,支持零樣本圖像分類任務
圖像分類
V
asakhare
20
0
Artwork Scorer
Apache-2.0
該模型是基於Facebook ConvNeXtV2架構的微調版本,專門針對Pixiv排行榜圖像進行多標籤分類任務訓練
圖像分類 Transformers
A
Muinez
32
5
Aesthetic Shadow
美學陰影是一款擁有11億參數的視覺Transformer模型,專為評估動漫圖像質量而設計。
圖像分類 Transformers
A
shadowlilac
373
26
Segformer B4 City Satellite Segmentation 1024x1024
Openrail
基於SegFormer架構的衛星圖像分割模型,專為城市區域分割任務設計
圖像分割 Transformers
S
ratnaonline1
110
4
Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k
MIT
基於EVA02架構的大規模視覺-語言模型,支持零樣本圖像分類任務
文本生成圖像
E
timm
130
1
Eva02 Large Patch14 Clip 336.merged2b S6b B61k
MIT
EVA02是一個基於CLIP架構的大規模視覺-語言模型,支持零樣本圖像分類任務。
文本生成圖像
E
timm
15.78k
0
Efficientnet B6
Apache-2.0
EfficientNet是一款移動端友好的純卷積模型,通過複合係數統一縮放深度/寬度/分辨率維度,在ImageNet-1k數據集上訓練
圖像分類 Transformers
E
google
167
0
Convnextv2 Huge.fcmae
基於ConvNeXt-V2的自監督特徵表示模型,採用全卷積掩碼自編碼器框架(FCMAE)進行預訓練,適用於圖像分類和特徵提取任務。
圖像分類 Transformers
C
timm
52
0
Timesformer Hr Finetuned Ssv2
TimeSformer是一個基於時空注意力機制的視頻分類模型,在Something Something v2數據集上進行了微調。
視頻處理 Transformers
T
fcakyon
14
0
Timesformer Hr Finetuned K600
TimeSformer是一種基於時空注意力機制的視頻理解模型,高分辨率變體專門針對Kinetics-600數據集進行了微調。
視頻處理 Transformers
T
fcakyon
22
0
Timesformer Hr Finetuned Ssv2
TimeSformer是基於空間-時間注意力機制的視頻理解模型,該版本是在Something Something v2數據集上微調的高分辨率變體。
視頻處理 Transformers
T
facebook
550
2
Timesformer Hr Finetuned K400
TimeSformer是一種基於空間-時間注意力機制的視頻理解模型,在Kinetics-400數據集上進行了預訓練和微調。
視頻處理 Transformers
T
facebook
178
2
Vit Large Patch16 224
Apache-2.0
基於Transformer架構的大規模圖像分類模型,在ImageNet-21k和ImageNet-1k數據集上預訓練和微調
圖像分類
V
google
188.47k
30
Segformer B0 Finetuned Cityscapes 640 1280
其他
SegFormer是一個基於Transformer架構的語義分割模型,在Cityscapes數據集上進行了微調,適用於道路場景分割任務。
圖像分割 Transformers
S
nvidia
41
0
Beit Base Finetuned Ade 640 640
Apache-2.0
BEiT是一種基於視覺Transformer(ViT)架構的模型,通過自監督學習在ImageNet-21k上預訓練,並在ADE20k數據集上微調,專門用於圖像語義分割任務。
圖像分割 Transformers
B
microsoft
1,645
11
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase