C

Clip Vit Large Patch14 336

由openai開發
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
下載量 5.9M
發布時間 : 4/22/2022

模型概述

該模型是OpenAI CLIP架構的實現,使用ViT-Large作為視覺編碼器,支持336x336分辨率圖像輸入,能夠進行圖像-文本匹配和零樣本分類任務

模型特點

跨模態理解
能夠同時處理視覺和文本信息,建立兩種模態間的語義關聯
零樣本學習
無需特定任務微調即可執行新類別的圖像分類任務
高分辨率處理
支持336x336像素的輸入分辨率,比標準CLIP模型(224x224)具有更細粒度的視覺理解能力

模型能力

圖像-文本相似度計算
零樣本圖像分類
多模態特徵提取
跨模態檢索

使用案例

內容審核
違規內容檢測
通過文本描述檢測不符合規定的圖像內容
電子商務
產品搜索
使用自然語言查詢匹配相關產品圖像
媒體分析
圖像標註
自動生成圖像的描述性文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase