MAKE
基於視覺-語言預訓練技術的零樣本皮膚病評估模型,整合多方面知識增強,為皮膚病研究和診斷提供有效工具。
文本生成圖像
M
xieji-x
108
2
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
基於Vision Transformer架構的視覺模型,採用SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法,適用於圖像理解任務。
圖像分類
Transformers

S
p1atdev
66
0
Comp SigLIP So400M
Apache-2.0
CoMP-MM-1B是一個支持原生圖像分辨率輸入的視覺基礎模型(VFM),基於SigLIP持續預訓練而成。
多模態融合
C
SliMM-X
33
1
Yoloe 11l Seg
YOLOE是一個即時視覺全能模型,支持零樣本目標檢測等多種視覺任務。
目標檢測
Y
jameslahm
219
2
Yoloe V8l Seg
YOLOE是一個即時視覺全能模型,結合了目標檢測和視覺理解能力,適用於多種視覺任務。
目標檢測
Y
jameslahm
4,135
1
Yoloe V8s Seg
YOLOE 是一個零樣本目標檢測模型,能夠即時檢測視覺場景中的各種物體。
目標檢測
Y
jameslahm
28
0
Aimv2 Large Patch14 448.apple Pt
AIM-v2是一個基於timm庫的圖像特徵提取模型,採用大尺寸補丁設計,適用於高分辨率圖像處理。
圖像分類
Transformers

A
timm
68
0
Aimv2 Huge Patch14 224.apple Pt
AIM-v2是一個高效的圖像編碼器,基於timm庫實現,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
93
0
Aimv2 3b Patch14 448.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,具有3B參數規模,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
79
0
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
35
0
Aimv2 3b Patch14 224.apple Pt
AIM-v2是一個高效的圖像編碼器模型,兼容timm框架,適用於計算機視覺任務。
圖像分類
Transformers

A
timm
50
0
Aimv2 1b Patch14 336.apple Pt
AIM-v2是由蘋果公司開發的圖像編碼器模型,基於timm庫兼容的架構,適用於圖像特徵提取任務。
圖像分類
Transformers

A
timm
65
0
Resnet101 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet101圖像編碼器,通過全局平均池化(GAP)提取圖像特徵
圖像分類
Transformers

R
timm
104
0
Resnet50x4 Clip Gap.openai
Apache-2.0
基於CLIP框架的ResNet50x4變體模型,專為圖像特徵提取設計
圖像分類
Transformers

R
timm
170
0
Resnet50 Clip Gap.openai
Apache-2.0
基於CLIP模型視覺編碼器部分的ResNet50變體,通過全局平均池化(GAP)提取圖像特徵
圖像分類
Transformers

R
timm
250
1
Resnet50 Clip Gap.cc12m
Apache-2.0
基於ResNet50架構的CLIP風格圖像編碼器,使用CC12M數據集訓練,通過全局平均池化(GAP)提取特徵
圖像分類
Transformers

R
timm
19
0
Vit Huge Patch14 Clip Quickgelu 378.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,使用DFN5B數據集訓練,支持快速GELU激活
圖像分類
Transformers

V
timm
27
0
Vit Huge Patch14 Clip 378.dfn5b
其他
DFN5B-CLIP的視覺編碼器部分,基於ViT-Huge架構,使用378x378分辨率圖像訓練的CLIP模型
圖像分類
Transformers

V
timm
461
0
Vit Base Patch16 Clip 224.dfn2b
其他
基於CLIP架構的視覺Transformer模型,由蘋果公司發佈的DFN2B-CLIP圖像編碼器權重
圖像分類
Transformers

V
timm
444
0
Vit So400m Patch14 Siglip Gap 896.pali Pt
Apache-2.0
基於SigLIP圖像編碼器的視覺模型,採用全局平均池化,是PaliGemma項目的一部分
文本生成圖像
Transformers

V
timm
15
1
Vit So400m Patch14 Siglip Gap 896.pali2 10b Pt
Apache-2.0
基於SigLIP圖像編碼器的視覺模型,帶全局平均池化,是PaliGemma2模型的一部分
文本生成圖像
Transformers

V
timm
57
1
Vit So400m Patch14 Siglip Gap 896.pali2 3b Pt
Apache-2.0
基於SigLIP圖像編碼器的視覺模型,採用全局平均池化,是PaliGemma2項目的一部分
文本生成圖像
Transformers

V
timm
14
1
Vit So400m Patch14 Siglip Gap 448.pali Mix
Apache-2.0
基於SigLIP圖像編碼器的視覺語言模型,採用全局平均池化處理,適用於多模態任務。
文本生成圖像
Transformers

V
timm
15
0
Vit So400m Patch14 Siglip 378.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器,採用原始注意力池化機制。
圖像分類
Transformers

V
timm
82
0
Vit Large Patch16 Siglip Gap 384.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,採用全局平均池化,適用於圖像特徵提取任務。
圖像分類
Transformers

V
timm
13
0
Vit Base Patch16 Siglip 384.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類
Transformers

V
timm
64
1
Vit Base Patch16 Siglip 256.webli
Apache-2.0
基於SigLIP的ViT-B-16圖像編碼器模型,採用原始注意力池化,適用於圖像特徵提取任務。
圖像分類
Transformers

V
timm
269
1
Vit Base Patch16 Siglip Gap 224.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用全局平均池化策略
圖像分類
Transformers

V
timm
178
1
Vit Base Patch16 Siglip 224.webli
Apache-2.0
基於SigLIP的視覺Transformer模型,僅包含圖像編碼器部分,採用原始注意力池化機制
圖像分類
Transformers

V
timm
330
1
Vit Large Patch14 Clip 224.laion2b
Apache-2.0
基於CLIP架構的視覺Transformer模型,專注於圖像特徵提取
圖像分類
Transformers

V
timm
502
0
Vit Large Patch14 Clip 224.datacompxl
Apache-2.0
基於CLIP架構的視覺Transformer模型,專門用於圖像特徵提取,由LAION組織發佈。
圖像分類
Transformers

V
timm
14
0
Vit Huge Patch14 Clip 224.laion2b
Apache-2.0
基於CLIP框架的ViT-Huge視覺編碼器,使用laion2B數據集訓練,支持圖像特徵提取
圖像分類
Transformers

V
timm
1,969
0
Vit Base Patch32 Clip 256.datacompxl
Apache-2.0
基於CLIP架構的視覺Transformer模型,專注於圖像特徵提取,支持256x256分辨率輸入
圖像分類
Transformers

V
timm
89
0
Vit Base Patch32 Clip 224.laion2b
Apache-2.0
基於CLIP架構的視覺Transformer模型,專為圖像特徵提取設計,使用laion2B數據集訓練
圖像分類
Transformers

V
timm
83
0
Vit Base Patch32 Clip 224.datacompxl
Apache-2.0
基於CLIP架構的視覺Transformer模型,專為圖像特徵提取設計,使用DataComp XL數據集訓練
圖像分類
Transformers

V
timm
13
0
Vit Base Patch16 Clip 224.datacompxl
Apache-2.0
基於CLIP架構的視覺Transformer模型,專門用於圖像特徵提取,採用ViT-B/16結構並在DataComp XL數據集上訓練
圖像分類
Transformers

V
timm
36
0
Convnext Xxlarge.clip Laion2b Soup
Apache-2.0
基於CLIP框架的ConvNeXt-XXLarge圖像編碼器,由LAION訓練,適用於多模態任務
圖像分類
Transformers

C
timm
220
0
Convnext Base.clip Laiona
Apache-2.0
基於CLIP框架的ConvNeXt Base模型,使用LAION-Aesthetic數據集訓練,適用於圖像特徵提取任務。
圖像分類
Transformers

C
timm
14
0
Convnext Base.clip Laion2b Augreg
Apache-2.0
基於CLIP框架的ConvNeXt Base圖像編碼器,使用LAION-2B數據集訓練,支持圖像特徵提取
圖像分類
Transformers

C
timm
522
0
Convnext Base.clip Laion2b
Apache-2.0
基於ConvNeXt架構的CLIP圖像編碼器,由LAION組織訓練,適用於多模態視覺-語言任務
圖像分類
Transformers

C
timm
297
0
- 1
- 2
- 3
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98