# 跨模態檢索

Openvision Vit So400m Patch14 384
Apache-2.0
OpenVision是一個完全開放、經濟高效的高級視覺編碼器家族,用於多模態學習。
多模態融合
O
UCSC-VLAA
238
0
Openvision Vit Tiny Patch8 224
Apache-2.0
OpenVision是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
多模態融合
O
UCSC-VLAA
123
0
Openvision Vit Tiny Patch16 384
Apache-2.0
OpenVision是一個全開放、高性價比的先進視覺編碼器家族,專注於多模態學習。
O
UCSC-VLAA
19
0
Unime LLaVA OneVision 7B
MIT
UniME是一個基於多模態大模型的通用嵌入學習框架,通過文本判別知識蒸餾和硬負樣本增強的指令調優策略,顯著提升了多模態嵌入能力。
多模態對齊 Transformers 英語
U
DeepGlint-AI
376
2
Unime LLaVA 1.6 7B
MIT
UniME是一個基於多模態大模型的通用嵌入學習模型,採用336×336圖像分辨率訓練,在MMEB排行榜上位列第一。
圖像生成文本 Transformers 英語
U
DeepGlint-AI
188
3
So400m Long
Apache-2.0
基於SigLIP 2微調的視覺語言模型,最大文本長度從64提升至256標記
文本生成圖像 Transformers 英語
S
fancyfeast
27
3
Omniembed V0.1
MIT
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
多模態融合
O
Tevatron
2,190
3
Mme5 Mllama 11b Instruct
MIT
mmE5是基於Llama-3.2-11B-Vision訓練的多模態多語言嵌入模型,通過高質量合成數據改進嵌入性能,在MMEB基準測試中達到最先進水平。
多模態融合 Transformers 支持多種語言
M
intfloat
596
18
Conceptclip
MIT
ConceptCLIP是一個通過醫學概念增強的大規模視覺語言預訓練模型,適用於多種醫學影像模態,能在多種醫學影像任務中實現穩健性能。
圖像生成文本 Transformers 英語
C
JerrryNie
836
1
Mexma Siglip
MIT
MEXMA-SigLIP 是一個結合了多語言文本編碼器和圖像編碼器的高性能CLIP模型,支持80種語言。
文本生成圖像 Safetensors 支持多種語言
M
visheratin
137
3
LLM2CLIP Openai L 14 224
Apache-2.0
LLM2CLIP是一種利用大型語言模型(LLM)釋放CLIP潛力的創新方法,通過對比學習框架提升文本判別性,突破原始CLIP文本編碼器的限制。
文本生成圖像 Safetensors
L
microsoft
108
5
LLM2CLIP Llama 3 8B Instruct CC Finetuned
Apache-2.0
LLM2CLIP是一種創新方法,通過大語言模型增強CLIP的跨模態能力,顯著提升視覺和文本表徵的判別力。
多模態融合
L
microsoft
18.16k
35
LLM2CLIP Openai B 16
Apache-2.0
LLM2CLIP是一種利用大語言模型(LLM)擴展CLIP能力的創新方法,通過對比學習框架提升文本判別性,顯著提升跨模態任務性能。
文本生成圖像 Safetensors
L
microsoft
1,154
18
LLM2CLIP EVA02 L 14 336
Apache-2.0
LLM2CLIP是一種創新方法,通過大語言模型(LLM)增強CLIP的視覺表徵能力,顯著提升跨模態任務性能
文本生成圖像 PyTorch
L
microsoft
75
60
RS M CLIP
MIT
面向遙感領域的多語言視覺-語言預訓練模型,支持10種語言的圖像-文本跨模態任務
圖像生成文本 支持多種語言
R
joaodaniel
248
1
E5 V
E5-V是基於多模態大語言模型的通用嵌入方法,能夠處理文本和圖像輸入並生成統一的嵌入表示。
多模態對齊 Transformers
E
royokong
5,619
22
Safeclip Vit L 14
Safe-CLIP 是基於 CLIP 模型的增強型視覺與語言模型,旨在降低 AI 應用中與 NSFW(不適合工作場所)內容相關的風險。
文本生成圖像 Transformers
S
aimagelab
931
3
Video Llava
基於Vision Transformer架構的大規模視覺語言模型,支持圖像與文本的跨模態理解
文本生成圖像
V
AnasMohamed
194
0
Nomic Embed Vision V1.5
Apache-2.0
高性能視覺嵌入模型,與nomic-embed-text-v1.5共享相同的嵌入空間,支持多模態應用
文本生成圖像 Transformers 英語
N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能視覺嵌入模型,與nomic-embed-text-v1共享相同的嵌入空間,支持多模態應用
文本生成圖像 Transformers 英語
N
nomic-ai
2,032
22
Clip ViT B 32 Vision
MIT
基於CLIP ViT-B/32架構的ONNX移植版本,適用於圖像分類和相似性搜索任務。
圖像分類 Transformers
C
Qdrant
10.01k
7
M3D CLIP
Apache-2.0
M3D-CLIP是專為3D醫學影像設計的CLIP模型,通過對比損失實現視覺與語言的對齊。
多模態對齊 Transformers
M
GoodBaiBai88
2,962
9
Blair Roberta Base
MIT
BLaIR是基於亞馬遜評論2023數據集預訓練的語言模型,專注於推薦和檢索場景,能夠生成強大的商品文本表徵並預測相關商品。
文本嵌入 Transformers 英語
B
hyp1231
415
3
Nllb Siglip Mrl Large
NLLB-SigLIP-MRL 是一個結合了NLLB模型的文本編碼器和SigLIP模型的圖像編碼器的多語言視覺-語言模型,支持Flores-200的201種語言。
圖像生成文本
N
visheratin
297
14
Nllb Siglip Mrl Base
結合NLLB文本編碼器和SigLIP圖像編碼器的多語言視覺語言模型,支持201種語言和多種嵌入維度
圖像生成文本
N
visheratin
352
9
Owlv2 Base Patch16
OWLv2是一個基於視覺語言預訓練的模型,專注於對象檢測和定位任務。
目標檢測 Transformers
O
Xenova
17
0
Owlvit Tiny Non Contiguous Weight
MIT
OWL-ViT 是一個基於視覺Transformer的開放詞彙目標檢測模型,能夠檢測圖像中未在訓練集中出現的類別。
文本生成圖像 Transformers
O
fxmarty
337
0
Internvl 14B 224px
MIT
InternVL-14B-224px 是一個14B參數量的視覺語言基礎模型,支持多種視覺語言任務。
文本生成圖像 Transformers
I
OpenGVLab
521
37
Languagebind Video Huge V1.5 FT
MIT
LanguageBind 是一種通過語言實現多模態語義對齊的預訓練模型,能夠將視頻、音頻、深度、熱成像等多種模態與語言進行綁定,實現跨模態的理解和檢索。
多模態對齊 Transformers
L
LanguageBind
2,711
4
Vilt Finetuned 200
Apache-2.0
基於ViLT架構的視覺語言模型,在特定任務上進行了微調
文本生成圖像 Transformers
V
Atul8827
35
0
Languagebind Audio FT
MIT
LanguageBind是一種以語言為中心的多模態預訓練方法,通過語言作為不同模態間的紐帶實現語義對齊。
多模態對齊 Transformers
L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBind是一種通過基於語言的語義對齊將視頻-語言預訓練擴展至N模態的多模態模型,獲得了ICLR 2024的接收。
多模態對齊 Transformers
L
LanguageBind
10.96k
4
Nllb Clip Base Siglip
NLLB-CLIP-SigLIP 是一個結合了NLLB模型的文本編碼器和SigLIP模型的圖像編碼器的多語言視覺語言模型,支持201種語言。
文本生成圖像
N
visheratin
478
1
Nllb Clip Large Siglip
NLLB-CLIP-SigLIP是一個結合了NLLB模型的文本編碼器和SigLIP模型的圖像編碼器的多語言視覺語言模型,支持201種語言。
文本生成圖像
N
visheratin
384
5
Xclip Base Patch16 Zero Shot
MIT
X-CLIP是CLIP的極簡擴展,用於通用視頻-語言理解,通過對比學習訓練視頻和文本的匹配關係。
文本生成視頻 Transformers 英語
X
aurelio-ai
22
1
Metaclip L14 400m
MetaCLIP是基於CommonCrawl數據訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間。
文本生成圖像 Transformers
M
facebook
325
3
Metaclip L14 Fullcc2.5b
MetaCLIP是基於CommonCrawl(CC)25億數據點訓練的大規模視覺-語言模型,解密了CLIP的數據篩選方法
文本生成圖像 Transformers
M
facebook
172
3
Metaclip B16 400m
MetaCLIP是基於CommonCrawl數據訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間
文本生成圖像 Transformers
M
facebook
51
1
Metaclip B16 Fullcc2.5b
MetaCLIP是應用於CommonCrawl數據的CLIP框架實現,旨在揭示CLIP訓練數據篩選方法
文本生成圖像 Transformers
M
facebook
90.78k
9
Metaclip B32 Fullcc2.5b
MetaCLIP是基於CommonCrawl(CC)25億數據點訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間。
文本生成圖像 Transformers
M
facebook
413
7
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase