Webssl Dino7b Full8b 378
基於80億無語言標註網絡圖像訓練的70億參數視覺Transformer模型,通過自監督學習實現卓越的視覺表徵能力
圖像分類
Transformers

W
facebook
68
0
Auramask Ensemble Poprocket
Gpl-3.0
該模型使用改進的vnet架構進行圖像到圖像處理,支持對抗性、美學和質量增強等任務
圖像生成
A
logasja
15
0
Auramask Ensemble Moon
Gpl-3.0
該模型使用改進的vnet架構進行2D圖像處理,專注於圖像到圖像的轉換任務,具有對抗性和美學優化特性。
圖像生成
A
logasja
17
0
C RADIOv2 G
其他
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種規格版本,適用於圖像理解和密集處理任務。

C
nvidia
648
11
C RADIOv2 B
其他
C-RADIOv2是NVIDIA開發的視覺特徵提取模型,提供多種尺寸版本,適用於圖像理解和密集視覺任務。

C
nvidia
404
8
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,具有3B參數規模,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
35
0
Resnet50x64 Clip Gap.openai
Apache-2.0
基於ResNet50架構的CLIP模型圖像編碼器,具有64倍寬度擴展,使用全局平均池化(GAP)策略
圖像分類
Transformers

R
timm
107
0
Resnet50x16 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet50x16變體模型,專注於圖像特徵提取
圖像分類
Transformers

R
timm
129
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
圖像分類
Transformers

V
timm
128
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
基於SigLIP圖像編碼器的視覺模型,採用全局平均池化,是PaliGemma項目的一部分
文本生成圖像
Transformers

V
timm
15
1
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,採用全局平均池化處理圖像特徵
圖像分類
Transformers

V
timm
96
0
Vit Base Patch16 Siglip 512.webli
Apache-2.0
基於SigLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類
Transformers

V
timm
702
0
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
基於SigLIP的ViT-B-16視覺Transformer模型,僅包含圖像編碼器,採用原始注意力池化
圖像分類
Transformers

V
timm
16
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
基於CLIP架構的ConvNeXt-Large圖像編碼器,在LAION-2B數據集上微調,支持320x320分辨率圖像特徵提取
圖像分類
Transformers

C
timm
173
0
Mini InternVL2 1B DA DriveLM
MIT
Mini-InternVL2-DA-RS是針對遙感圖像領域優化的多模態模型,基於Mini-InternVL架構,通過領域適配框架微調,在遙感圖像理解任務上表現優異。
圖像生成文本
Transformers 其他

M
OpenGVLab
61
1
Coreml DepthPro
DepthPro 是一種單目深度估計模型,能夠通過單張圖像預測深度。
3D視覺
C
KeighBee
17
4
Timesformer Hr Finetuned K600
TimeSformer-HR 是一個基於視頻的動作識別模型,專門針對高分辨率視頻進行了優化,並在 Kinetics-600 數據集上進行了微調。
視頻處理
Transformers

T
onnx-community
17
0
Dust3r ViTLarge BaseDecoder 512 Dpt
DUSt3R是一個用於從圖像輕鬆實現幾何3D視覺的模型,能夠從單張或多張圖像重建3D場景。
3D視覺
D
naver
46.93k
14
C RADIO
其他
NVIDIA開發的視覺特徵提取模型,用於生成圖像嵌入,支持下游任務如圖像分類。

C
nvidia
398
14
Vit L 14 336
MIT
基於Vision Transformer架構的大規模視覺語言模型,支持零樣本圖像分類任務
圖像分類
V
asakhare
20
0
Artwork Scorer
Apache-2.0
該模型是基於Facebook ConvNeXtV2架構的微調版本,專門針對Pixiv排行榜圖像進行多標籤分類任務訓練
圖像分類
Transformers

A
Muinez
32
5
Aesthetic Shadow
美學陰影是一款擁有11億參數的視覺Transformer模型,專為評估動漫圖像質量而設計。
圖像分類
Transformers

A
shadowlilac
373
26
Segformer B4 City Satellite Segmentation 1024x1024
Openrail
基於SegFormer架構的衛星圖像分割模型,專為城市區域分割任務設計
圖像分割
Transformers

S
ratnaonline1
110
4
Eva02 Enormous Patch14 Clip 224.laion2b S4b B115k
MIT
基於EVA02架構的大規模視覺-語言模型,支持零樣本圖像分類任務
文本生成圖像
E
timm
130
1
Eva02 Large Patch14 Clip 336.merged2b S6b B61k
MIT
EVA02是一個基於CLIP架構的大規模視覺-語言模型,支持零樣本圖像分類任務。
文本生成圖像
E
timm
15.78k
0
Efficientnet B6
Apache-2.0
EfficientNet是一款移動端友好的純卷積模型,通過複合係數統一縮放深度/寬度/分辨率維度,在ImageNet-1k數據集上訓練
圖像分類
Transformers

E
google
167
0
Convnextv2 Huge.fcmae
基於ConvNeXt-V2的自監督特徵表示模型,採用全卷積掩碼自編碼器框架(FCMAE)進行預訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

C
timm
52
0
Timesformer Hr Finetuned Ssv2
TimeSformer是一個基於時空注意力機制的視頻分類模型,在Something Something v2數據集上進行了微調。
視頻處理
Transformers

T
fcakyon
14
0
Timesformer Hr Finetuned K600
TimeSformer是一種基於時空注意力機制的視頻理解模型,高分辨率變體專門針對Kinetics-600數據集進行了微調。
視頻處理
Transformers

T
fcakyon
22
0
Timesformer Hr Finetuned Ssv2
TimeSformer是基於空間-時間注意力機制的視頻理解模型,該版本是在Something Something v2數據集上微調的高分辨率變體。
視頻處理
Transformers

T
facebook
550
2
Timesformer Hr Finetuned K400
TimeSformer是一種基於空間-時間注意力機制的視頻理解模型,在Kinetics-400數據集上進行了預訓練和微調。
視頻處理
Transformers

T
facebook
178
2
Vit Large Patch16 224
Apache-2.0
基於Transformer架構的大規模圖像分類模型,在ImageNet-21k和ImageNet-1k數據集上預訓練和微調
圖像分類
V
google
188.47k
30
Segformer B0 Finetuned Cityscapes 640 1280
其他
SegFormer是一個基於Transformer架構的語義分割模型,在Cityscapes數據集上進行了微調,適用於道路場景分割任務。
圖像分割
Transformers

S
nvidia
41
0
Beit Base Finetuned Ade 640 640
Apache-2.0
BEiT是一種基於視覺Transformer(ViT)架構的模型,通過自監督學習在ImageNet-21k上預訓練,並在ADE20k數據集上微調,專門用於圖像語義分割任務。
圖像分割
Transformers

B
microsoft
1,645
11
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98