C

Clip Finetuned Csu P14 336 E3l57 L

由kevinoli開發
該模型是基於openai/clip-vit-large-patch14-336微調的版本,主要用於圖像-文本匹配任務。
下載量 31
發布時間 : 8/21/2024

模型概述

基於CLIP架構的視覺-語言模型,經過微調後可用於圖像分類、圖像檢索等跨模態任務。

模型特點

跨模態理解
能夠同時處理視覺和文本信息,建立兩者之間的語義關聯
高分辨率處理
支持336x336像素的輸入分辨率,比標準CLIP模型更高
微調優化
在特定數據集上進行了3輪微調,驗證損失降至0.47

模型能力

圖像-文本匹配
零樣本圖像分類
跨模態檢索
圖像特徵提取

使用案例

內容檢索
基於文本的圖像搜索
使用自然語言描述檢索相關圖像
內容審核
違規內容檢測
通過文本描述檢測不符合規定的圖像內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase