多模態檢索

# 多模態檢索

FG-CLIP是一個細粒度視覺與文本對齊模型，通過兩階段訓練實現全局和區域級別的圖像-文本對齊。

文本生成圖像

Transformers 英語

Jina Embeddings V4

Jina Embeddings v4 是一款專為多模態和多語言檢索設計的通用嵌入模型，特別適用於複雜文檔的檢索，包括包含圖表、表格和插圖的視覺豐富文檔。

多模態融合

Transformers 其他

CLIP ViT H 14 Laion2b S32b B79k

這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型，擅長零樣本圖像分類和跨模態檢索任務。

文本生成圖像

CLIP ViT B 32 Laion2b S34b B79k

基於OpenCLIP框架在LAION-2B英語數據集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索

文本生成圖像

CLIP ViT L 14 Spectrum Icons 20k

基於CLIP ViT-L/14微調的視覺語言模型，專為抽象圖像-文本檢索任務優化

文本生成圖像

TensorBoard 英語

Prolip ViT B 16 DC 1B 12 8B

基於DataComp 1B數據集預訓練的概率語言-圖像預訓練(ProLIP)ViT-B/16模型

文本生成圖像

Jina CLIP v2 是一個通用的多語言多模態嵌入模型，適用於文本和圖像，支持89種語言，具有更高的圖像分辨率和嵌套表示能力。

文本生成圖像

Transformers 支持多種語言

ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型，用於高效地從視覺特徵中索引文檔。

文本生成圖像

Safetensors 英語

Patentclip RN101

基於OpenCLIP庫的零樣本圖像分類模型，適用於專利圖像分析

CLIP ViT B 32 Laion2b S34b B79k

基於OpenCLIP框架在LAION-2B數據集上訓練的CLIP ViT-B/32模型，支持零樣本圖像分類和跨模態檢索任務

文本生成圖像

CLIP GmP ViT L 14

基於OpenAI CLIP ViT-L/14的微調模型，通過幾何參數化(GmP)實現性能提升，特別優化了文本編碼能力

文本生成圖像

CLIP ViT B 32 DataComp.XL S13b B90k

這是一個基於 DataComp-1B 數據集訓練的 CLIP ViT-B/32 模型，用於零樣本圖像分類和圖像文本檢索等任務。

文本生成圖像

CLIP ViT B 32 256x256 DataComp S34b B86k

這是一個基於DataComp-1B數據集訓練的CLIP ViT-B/32模型，使用OpenCLIP框架在256x256分辨率下完成訓練，主要用於零樣本圖像分類和圖文檢索任務。

文本生成圖像

Pmc Vit L 14 Hf

基於CLIP-ViT-L/14在PMC-OA數據集上微調的視覺語言模型

文本生成圖像

CLIP ViT B 16 DataComp.XL S13b B90k

這是一個基於 DataComp-1B 數據集訓練的 CLIP ViT-L/14 模型，支持零樣本圖像分類和圖像文本檢索任務。

圖像生成文本

CLIP ViT B 16 DataComp.XL S13b B90k

這是一個使用OpenCLIP在DataComp-1B數據集上訓練的CLIP ViT-B/16模型，主要用於零樣本圖像分類和圖像文本檢索。

文本生成圖像

CLIP ViT L 14 DataComp.XL S13b B90k

該模型是基於DataComp-1B數據集訓練的CLIP ViT-L/14模型，主要用於零樣本圖像分類和圖文檢索任務。

文本生成圖像

Arabic Clip Vit Base Patch32

阿拉伯語CLIP是對比語言-圖像預訓練(CLIP)模型針對阿拉伯語的適配版本，能夠從圖像中學習概念並將其與阿拉伯語文本描述相關聯。

文本生成圖像阿拉伯語

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup

基於LAION-2B數據集訓練的CLIP ConvNeXt-XXLarge模型，採用OpenCLIP框架訓練，是首個非ViT圖像塔CLIP模型實現>79% ImageNet top-1零樣本準確率

文本生成圖像

CLIP Convnext Large D 320.laion2B S29b B131k Ft

基於ConvNeXt-Large架構的CLIP模型，在LAION-2B數據集上訓練，支持零樣本圖像分類和圖像文本檢索任務。

文本生成圖像

CLIP Convnext Large D 320.laion2B S29b B131k Ft Soup

基於ConvNeXt-Large架構的CLIP模型，在LAION-2B數據集上訓練，支持零樣本圖像分類和圖像文本檢索任務

文本生成圖像

CLIP Convnext Large D.laion2b S26b B102k Augreg

基於LAION-2B數據集訓練的大規模ConvNeXt-Large CLIP模型，支持零樣本圖像分類和圖文檢索任務

文本生成圖像

CLIP ViT Bigg 14 Laion2b 39B B160k

基於OpenCLIP框架在LAION-2B數據集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索

文本生成圖像

CLIP Convnext Base W Laion2b S13b B82k Augreg

基於ConvNeXt-Base架構的CLIP模型，使用OpenCLIP在LAION-5B子集上訓練，專注於零樣本圖像分類任務

文本生成圖像

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k

基於ConvNeXt-Base架構的CLIP模型，在LAION-5B子集上訓練，適用於零樣本圖像分類和圖像文本檢索任務。

文本生成圖像

CLIP Convnext Base W Laion Aesthetic S13b B82k

基於LAION-Aesthetic數據集訓練的ConvNeXt-Base架構CLIP模型，支持零樣本圖像分類和跨模態檢索任務

文本生成圖像

CLIP Convnext Base W Laion2b S13b B82k

基於ConvNeXt-Base架構的CLIP模型，在LAION-5B子集上訓練，支持零樣本圖像分類和圖文檢索任務

文本生成圖像

CLIP ViT B 16 Laion2b S34b B88k

基於OpenCLIP框架訓練的多模態視覺語言模型，在LAION-2B英語數據集上訓練完成，支持零樣本圖像分類任務

文本生成圖像

Taiyi CLIP RoBERTa 102M ViT L Chinese

首個開源的中文CLIP模型，基於1.23億圖文對進行預訓練，文本編碼器採用RoBERTa-base架構。

文本生成圖像

Transformers 中文

CLIP ViT H 14 Laion2b S32b B79k

基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索任務

文本生成圖像

CLIP ViT L 14 Laion2b S32b B82k

基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺語言模型，支持零樣本圖像分類和圖文檢索

文本生成圖像

CLIP ViT B 32 Laion2b S34b B79k

基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型，支持零樣本圖像分類和跨模態檢索

文本生成圖像

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase