C

Clip Vit Large Patch14

由Xenova開發
OpenAI 開源的 CLIP 模型,基於 Vision Transformer (ViT) 架構,支持圖像和文本的聯合理解。
下載量 17.41k
發布時間 : 9/1/2023

模型概述

CLIP (Contrastive Language-Image Pretraining) 是一個多模態模型,能夠理解圖像和文本之間的關係。它通過對比學習訓練,可以用於圖像分類、圖像搜索、文本到圖像檢索等任務。

模型特點

多模態理解
能夠同時處理和理解圖像和文本信息,建立兩者之間的關聯。
零樣本學習
無需特定任務的微調,即可執行新的視覺任務。
Web 兼容
ONNX 格式優化,支持在瀏覽器環境中運行。

模型能力

圖像分類
圖像-文本匹配
文本到圖像檢索
零樣本圖像識別

使用案例

內容檢索
圖像搜索
根據文本描述搜索相關圖像。
文本搜索
根據圖像內容搜索相關文本描述。
內容審核
違規內容檢測
檢測圖像和文本是否包含違規內容。
輔助創作
圖像標註
自動生成圖像的文本描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase