# 圖文檢索

Fg Clip Large
Apache-2.0
FG-CLIP是一種細粒度視覺與文本對齊模型,通過兩階段訓練實現全局和區域級的圖文對齊,提升細粒度視覺理解能力。
多模態對齊 Transformers 英語
F
qihoo360
538
3
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
159.81k
21
Siglip2 Base Patch16 Naflex
Apache-2.0
SigLIP 2 是一個多語言視覺-語言編碼器,整合了SigLIP的預訓練目標並增加了新的訓練方案,提升了語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
10.68k
5
Siglip2 So400m Patch16 512
Apache-2.0
SigLIP 2 是基於 SigLIP 的視覺語言模型,增強了語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
46.46k
18
Siglip2 So400m Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
7,632
2
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
2,729
0
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
622.54k
20
Siglip2 So400m Patch14 224
Apache-2.0
SigLIP 2 是基於 SigLIP 改進的多語言視覺語言編碼器,增強了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
23.11k
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
26.12k
14
Siglip2 Giant Opt Patch16 256
Apache-2.0
SigLIP 2 是一個先進的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
3,936
1
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
4,416
8
Siglip2 Large Patch16 384
Apache-2.0
SigLIP 2 是在 SigLIP 基礎上改進的多語言視覺語言編碼器,提升了語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
6,525
2
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 是基於 SigLIP 改進的視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2 是一個視覺語言模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
28.01k
10
Siglip2 Base Patch16 384
Apache-2.0
SigLIP 2 是基於 SigLIP 的視覺語言模型,通過統一訓練方案提升了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
4,832
5
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2是一個多語言視覺語言編碼器,改進了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
45.24k
4
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2是基於SigLIP改進的多語言視覺語言編碼器,增強了語義理解、定位和密集特徵提取能力。
圖像生成文本 Transformers
S
google
44.75k
38
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2 是基於 SigLIP 的改進版本,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
9,419
4
Llm Jp Clip Vit Large Patch14
Apache-2.0
基於OpenCLIP框架訓練的日語CLIP模型,在14.5億日文圖文對數據集上訓練,支持零樣本圖像分類和圖文檢索任務
文本生成圖像 日語
L
llm-jp
254
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日語CLIP模型,基於OpenCLIP框架訓練,支持零樣本圖像分類任務
文本生成圖像 日語
L
llm-jp
40
1
Tic CLIP Basic Oracle
其他
TiC-CLIP是基於OpenCLIP改進的視覺語言模型,專注於時間持續學習,訓練數據涵蓋2014至2022年
文本生成圖像
T
apple
37
0
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本 Transformers
S
google
6.1M
526
Siglip Large Patch16 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的多模態模型,採用改進的Sigmoid損失函數,適用於零樣本圖像分類和圖文檢索任務。
圖像生成文本 Transformers
S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數提升性能
圖像生成文本 Transformers
S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺-語言模型,採用改進的sigmoid損失函數,在圖像分類和圖文檢索任務中表現優異。
文本生成圖像 Transformers
S
google
237.79k
24
Siglip Base Patch16 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的多模態模型,採用改進的sigmoid損失函數,適用於零樣本圖像分類和圖文檢索任務。
圖像生成文本 Transformers
S
google
2,570
10
Siglip Base Patch16 256
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的Sigmoid損失函數,在圖像分類和圖文檢索任務中表現優異。
文本生成圖像 Transformers
S
google
12.71k
5
Siglip Base Patch16 224
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的Sigmoid損失函數,優化了圖像-文本匹配任務
圖像生成文本 Transformers
S
google
250.28k
43
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind
MIT
基於LAION-2B數據集訓練的CLIP ConvNeXt-XXLarge模型,採用OpenCLIP框架實現,專注於零樣本圖像分類任務。
文本生成圖像
C
laion
63
2
Align Base
ALIGN是一個視覺-語言雙編碼器模型,通過對比學習實現圖像與文本表徵的對齊,利用大規模噪聲數據實現先進的跨模態表徵效果。
多模態對齊 Transformers 英語
A
kakaobrain
78.28k
25
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase