V

Vit L 16 HTxt Recap CLIP

由UCSC-VLAA開發
基於Recap-DataComp-1B數據集訓練的CLIP模型,使用LLaMA-3生成的標註文本進行訓練,適用於零樣本圖像分類任務
下載量 538
發布時間 : 6/13/2024

模型概述

對比式圖文模型,通過重新標註的網絡圖片數據進行訓練,具備強大的零樣本圖像分類能力

模型特點

LLaMA-3重新標註
使用LLaMA-3生成的標註文本對數十億網絡圖片進行重新標註訓練
大規模訓練
基於Recap-DataComp-1B大規模數據集訓練
零樣本能力
無需微調即可直接應用於多種圖像分類任務

模型能力

零樣本圖像分類
圖文匹配
跨模態特徵提取

使用案例

圖像理解
圖像分類
無需訓練即可對圖像進行分類
示例顯示對'法式甜甜圈'圖像分類準確率100%
內容審核
不當內容檢測
識別圖像中的不當內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase