C

Clip ViT B 32 Multilingual V1 ONNX

由 canavar 开发
OpenAI CLIP-ViT-B32模型的多语言ONNX版本,支持50+语言的文本与图像嵌入到同一向量空间
下载量 86
发布时间 : 11/22/2023

模型简介

该模型将文本(支持50多种语言)和图像映射到共同的密集向量空间,实现跨模态相似度计算,适用于图像搜索和多语言零样本图像分类任务。

模型特点

多语言对齐
通过知识蒸馏将50+语言的文本嵌入与CLIP图像嵌入对齐到同一向量空间
跨模态检索
支持文本到图像、图像到文本的双向相似度计算
零样本分类
可直接用文本标签定义分类类别,无需微调即可进行图像分类
ONNX格式
模型已转换为ONNX格式,便于跨平台部署

模型能力

多语言文本嵌入
图像特征提取
跨模态相似度计算
零样本图像分类
多语言图像搜索

使用案例

图像检索
多语言图像搜索
使用任意支持语言的文本查询搜索相关图像
示例显示可正确匹配不同语言描述的图像
智能分类
零样本图像分类
用文本标签直接定义分类类别,无需训练数据
支持动态添加/修改分类类别
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase