Fg Clip Base
Apache-2.0
FG-CLIP是一個細粒度視覺與文本對齊模型,通過兩階段訓練實現全局和區域級別的圖像-文本對齊。
文本生成圖像
Transformers 英語

F
qihoo360
692
2
Jina Embeddings V4
Jina Embeddings v4 是一款專為多模態和多語言檢索設計的通用嵌入模型,特別適用於複雜文檔的檢索,包括包含圖表、表格和插圖的視覺豐富文檔。
多模態融合
Transformers 其他

J
jinaai
669
36
CLIP ViT H 14 Laion2b S32b B79k
MIT
這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型,擅長零樣本圖像分類和跨模態檢索任務。
文本生成圖像
C
ModelsLab
132
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
recallapp
17
0
CLIP ViT L 14 Spectrum Icons 20k
MIT
基於CLIP ViT-L/14微調的視覺語言模型,專為抽象圖像-文本檢索任務優化
文本生成圖像
TensorBoard 英語

C
JianLiao
1,576
1
Prolip ViT B 16 DC 1B 12 8B
MIT
基於DataComp 1B數據集預訓練的概率語言-圖像預訓練(ProLIP)ViT-B/16模型
文本生成圖像
P
SanghyukChun
460
0
Jina Clip V2
Jina CLIP v2 是一個通用的多語言多模態嵌入模型,適用於文本和圖像,支持89種語言,具有更高的圖像分辨率和嵌套表示能力。
文本生成圖像
Transformers 支持多種語言

J
jinaai
47.56k
219
Colpali V1.1
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型,用於高效地從視覺特徵中索引文檔。
文本生成圖像
Safetensors 英語
C
vidore
196
2
Patentclip RN101
MIT
基於OpenCLIP庫的零樣本圖像分類模型,適用於專利圖像分析
圖像分類
P
hhshomee
15
0
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B數據集上訓練的CLIP ViT-B/32模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
C
rroset
48
0
CLIP GmP ViT L 14
MIT
基於OpenAI CLIP ViT-L/14的微調模型,通過幾何參數化(GmP)實現性能提升,特別優化了文本編碼能力
文本生成圖像
Transformers

C
zer0int
6,275
433
CLIP ViT B 32 DataComp.XL S13b B90k
MIT
這是一個基於 DataComp-1B 數據集訓練的 CLIP ViT-B/32 模型,用於零樣本圖像分類和圖像文本檢索等任務。
文本生成圖像
C
laion
12.12k
4
CLIP ViT B 32 256x256 DataComp S34b B86k
MIT
這是一個基於DataComp-1B數據集訓練的CLIP ViT-B/32模型,使用OpenCLIP框架在256x256分辨率下完成訓練,主要用於零樣本圖像分類和圖文檢索任務。
文本生成圖像
C
laion
4,332
8
Pmc Vit L 14 Hf
基於CLIP-ViT-L/14在PMC-OA數據集上微調的視覺語言模型
文本生成圖像
Transformers

P
ryanyip7777
260
1
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
這是一個基於 DataComp-1B 數據集訓練的 CLIP ViT-L/14 模型,支持零樣本圖像分類和圖像文本檢索任務。
圖像生成文本
C
flavour
39.22k
1
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
這是一個使用OpenCLIP在DataComp-1B數據集上訓練的CLIP ViT-B/16模型,主要用於零樣本圖像分類和圖像文本檢索。
文本生成圖像
C
laion
4,461
7
CLIP ViT L 14 DataComp.XL S13b B90k
MIT
該模型是基於DataComp-1B數據集訓練的CLIP ViT-L/14模型,主要用於零樣本圖像分類和圖文檢索任務。
文本生成圖像
C
laion
586.75k
113
Arabic Clip Vit Base Patch32
阿拉伯語CLIP是對比語言-圖像預訓練(CLIP)模型針對阿拉伯語的適配版本,能夠從圖像中學習概念並將其與阿拉伯語文本描述相關聯。
文本生成圖像 阿拉伯語
A
LinaAlhuri
33
2
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup
MIT
基於LAION-2B數據集訓練的CLIP ConvNeXt-XXLarge模型,採用OpenCLIP框架訓練,是首個非ViT圖像塔CLIP模型實現>79% ImageNet top-1零樣本準確率
文本生成圖像
C
laion
9,412
22
CLIP Convnext Large D 320.laion2B S29b B131k Ft
MIT
基於ConvNeXt-Large架構的CLIP模型,在LAION-2B數據集上訓練,支持零樣本圖像分類和圖像文本檢索任務。
文本生成圖像
TensorBoard

C
laion
3,810
3
CLIP Convnext Large D 320.laion2B S29b B131k Ft Soup
MIT
基於ConvNeXt-Large架構的CLIP模型,在LAION-2B數據集上訓練,支持零樣本圖像分類和圖像文本檢索任務
文本生成圖像
TensorBoard

C
laion
83.56k
19
CLIP Convnext Large D.laion2b S26b B102k Augreg
MIT
基於LAION-2B數據集訓練的大規模ConvNeXt-Large CLIP模型,支持零樣本圖像分類和圖文檢索任務
文本生成圖像
TensorBoard

C
laion
80.74k
5
CLIP ViT Bigg 14 Laion2b 39B B160k
MIT
基於OpenCLIP框架在LAION-2B數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
laion
565.80k
261
CLIP Convnext Base W Laion2b S13b B82k Augreg
MIT
基於ConvNeXt-Base架構的CLIP模型,使用OpenCLIP在LAION-5B子集上訓練,專注於零樣本圖像分類任務
文本生成圖像
TensorBoard

C
laion
40.86k
7
CLIP Convnext Base W 320 Laion Aesthetic S13b B82k
MIT
基於ConvNeXt-Base架構的CLIP模型,在LAION-5B子集上訓練,適用於零樣本圖像分類和圖像文本檢索任務。
文本生成圖像
TensorBoard

C
laion
12.67k
3
CLIP Convnext Base W Laion Aesthetic S13b B82k
MIT
基於LAION-Aesthetic數據集訓練的ConvNeXt-Base架構CLIP模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
TensorBoard

C
laion
703
5
CLIP Convnext Base W Laion2b S13b B82k
MIT
基於ConvNeXt-Base架構的CLIP模型,在LAION-5B子集上訓練,支持零樣本圖像分類和圖文檢索任務
文本生成圖像
C
laion
4,522
5
CLIP ViT B 16 Laion2b S34b B88k
MIT
基於OpenCLIP框架訓練的多模態視覺語言模型,在LAION-2B英語數據集上訓練完成,支持零樣本圖像分類任務
文本生成圖像
C
laion
251.02k
33
Taiyi CLIP RoBERTa 102M ViT L Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-base架構。
文本生成圖像
Transformers 中文

T
IDEA-CCNL
668
19
CLIP ViT H 14 Laion2b S32b B79k
MIT
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
C
laion
1.8M
368
CLIP ViT L 14 Laion2b S32b B82k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺語言模型,支持零樣本圖像分類和圖文檢索
文本生成圖像
TensorBoard

C
laion
79.01k
48
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
laion
1.1M
112
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98