C

CLIP Giga Config Fixed

由Geonmo開發
基於LAION-2B數據集訓練的CLIP大模型,採用ViT-bigG-14架構,支持圖文跨模態理解
下載量 109
發布時間 : 6/28/2023

模型概述

這是一個大規模視覺-語言預訓練模型,能夠將圖像和文本映射到同一語義空間,實現跨模態檢索和理解

模型特點

大規模預訓練
使用39B token的LAION-2B數據集訓練,具有強大的跨模態理解能力
高效視覺編碼
採用ViT-bigG-14架構,能高效處理高分辨率圖像輸入
零樣本遷移能力
無需微調即可應用於下游任務,如圖文檢索和零樣本分類

模型能力

圖文相似度計算
跨模態檢索
零樣本圖像分類
圖像描述生成
文本引導圖像搜索

使用案例

內容檢索
電商產品搜索
通過文字描述搜索相關產品圖片
提高搜索準確率和用戶體驗
內容審核
違規內容檢測
通過圖文匹配檢測違規內容
自動化內容審核流程
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase