OPENCLIP SigLIP Tiny 14 Distill SigLIP 400m Cc9m
MIT
一個基於SigLIP架構的輕量級視覺語言模型,通過蒸餾技術從更大的SigLIP-400m模型中提取知識,適用於零樣本圖像分類任務。
圖像分類
O
PumeTu
30
0
Llmdet Swin Large Hf
Apache-2.0
LLMDet是基於大語言模型監督的強開放詞彙目標檢測器,CVPR2025亮點論文成果
目標檢測
L
fushh7
3,428
1
Llmdet Swin Base Hf
Apache-2.0
LLMDet是一個基於大語言模型監督的開放詞彙目標檢測器,能夠實現零樣本目標檢測。
目標檢測
Safetensors
L
fushh7
605
0
Llmdet Swin Tiny Hf
Apache-2.0
LLMDet是基於大語言模型監督的強開放詞彙目標檢測器,能夠實現零樣本目標檢測。
目標檢測
Safetensors
L
fushh7
2,451
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
基於Qwen2.5-VL-3B-Instruct的零樣本目標檢測模型,通過VLM-R1強化學習增強,支持開放詞彙檢測任務。
文本生成圖像 英語
V
omlab
892
11
Yoloe V8l Seg
YOLOE是一個即時視覺全能模型,結合了目標檢測和視覺理解能力,適用於多種視覺任務。
目標檢測
Y
jameslahm
4,135
1
Genmedclip
MIT
GenMedClip 是一個基於 open_clip 庫的零樣本圖像分類模型,專注於醫學圖像分析。
圖像分類
G
wisdomik
40
0
Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIP 是一個基於 CLIP 架構的大規模視覺-語言模型,支持零樣本圖像分類等任務。
文本生成圖像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIP模型是基於OpenCLIP和timm模型權重的視覺語言模型,支持零樣本圖像分類等任務。
圖像分類
E
timm
165
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIP是基於CLIP架構的大規模視覺-語言模型,支持零樣本圖像分類等任務。
文本生成圖像
E
timm
54
0
Vit Huge Patch14 Clip 224.metaclip Altogether
基於ViT-Huge架構的CLIP模型,支持零樣本圖像分類任務
圖像分類
V
timm
171
1
Vit Base Patch16 Clip 224.metaclip 400m
基於MetaCLIP-400M數據集訓練的雙框架兼容視覺模型,支持OpenCLIP和timm框架
圖像分類
V
timm
1,206
1
Omdet Turbo Swin Tiny Hf
Apache-2.0
OmDet-Turbo是基於即時Transformer的高效融合頭開放詞彙檢測模型,適用於零樣本目標檢測任務。
目標檢測
Safetensors
O
omlab
36.29k
33
Medcsp Clip
MIT
基於CLIP架構的醫學領域零樣本圖像分類模型
文本生成圖像
M
xcwangpsu
91
1
Resnet50x64 Clip.openai
MIT
基於OpenCLIP庫的ResNet50x64架構的CLIP模型,支持零樣本圖像分類任務。
圖像分類
R
timm
622
0
Resnet101 Clip.openai
MIT
基於ResNet101架構的CLIP模型,支持零樣本圖像分類任務。
圖像分類
R
timm
2,717
0
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一個基於 ViTamin 架構的大規模視覺語言模型,專為視覺語言任務設計,支持高分辨率圖像處理和多模態特徵提取。
圖像生成文本
Transformers

V
jienengchen
104
20
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢檢測圖像中的對象。
文本生成圖像
Transformers

O
Thomasboosinger
1
0
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位物體。
目標檢測
Transformers

O
upfeatmediainc
15
0
Owlv2 Base Patch16
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢對圖像中的物體進行檢測和定位。
文本生成圖像
Transformers

O
vvmnnnkv
26
0
Owlv2 Large Patch14 Finetuned
Apache-2.0
OWLv2是一個零樣本文本條件目標檢測模型,可通過文本查詢在圖像中檢測物體,無需特定類別的訓練數據。
文本生成圖像
Transformers

O
google
1,434
4
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一個零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像
Transformers

O
google
262.77k
25
Owlv2 Base Patch16 Finetuned
Apache-2.0
OWLv2是一個零樣本文本條件目標檢測模型,可通過文本查詢檢索圖像中的對象。
目標檢測
Transformers

O
google
2,698
3
CLIP ViT L 14 CommonPool.XL.clip S13b B90k
MIT
基於CLIP架構的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
laion
534
1
CLIP ViT B 32 CommonPool.M.clip S128m B4k
MIT
基於CLIP架構的零樣本圖像分類模型,支持通用池化功能
圖像生成文本
C
laion
164
0
CLIP ViT B 32 CommonPool.S.basic S13m B4k
MIT
基於CLIP架構的視覺-語言模型,支持零樣本圖像分類任務
圖像生成文本
C
laion
53
0
Eva02 Large Patch14 Clip 224.merged2b S4b B131k
MIT
EVA02是一個基於CLIP架構的大規模視覺語言模型,支持零樣本圖像分類任務。
圖像分類
E
timm
5,696
6
Owlvit Large Patch14
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可通過文本查詢檢索圖像中的對象。
文本生成圖像
Transformers

O
google
25.01k
25
Owlvit Base Patch16
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可通過文本查詢在圖像中檢測物體。
文本生成圖像
Transformers

O
google
4,588
12
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
文本生成圖像
Transformers

O
google
764.95k
129
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98