C

Clip ViT B 32 Multilingual V1 ONNX

由canavar開發
OpenAI CLIP-ViT-B32模型的多語言ONNX版本,支持50+語言的文本與圖像嵌入到同一向量空間
下載量 86
發布時間 : 11/22/2023

模型概述

該模型將文本(支持50多種語言)和圖像映射到共同的密集向量空間,實現跨模態相似度計算,適用於圖像搜索和多語言零樣本圖像分類任務。

模型特點

多語言對齊
通過知識蒸餾將50+語言的文本嵌入與CLIP圖像嵌入對齊到同一向量空間
跨模態檢索
支持文本到圖像、圖像到文本的雙向相似度計算
零樣本分類
可直接用文本標籤定義分類類別,無需微調即可進行圖像分類
ONNX格式
模型已轉換為ONNX格式,便於跨平臺部署

模型能力

多語言文本嵌入
圖像特徵提取
跨模態相似度計算
零樣本圖像分類
多語言圖像搜索

使用案例

圖像檢索
多語言圖像搜索
使用任意支持語言的文本查詢搜索相關圖像
示例顯示可正確匹配不同語言描述的圖像
智能分類
零樣本圖像分類
用文本標籤直接定義分類類別,無需訓練數據
支持動態添加/修改分類類別
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase