C

Chinese Clip Vit Huge Patch14

由 OFA-Sys 开发
Chinese CLIP是一个基于Vision Transformer架构的多模态模型,支持中文视觉-语言任务。
下载量 623
发布时间 : 11/9/2022

模型简介

该模型结合了视觉和语言处理能力,能够理解中文文本与图像的关联,适用于跨模态检索和分类任务。

模型特点

中文多模态理解
专门针对中文场景优化,能同时处理图像和中文文本输入
视觉Transformer架构
采用ViT-Base结构,16x16图像分块处理,平衡性能与效率
零样本分类能力
无需微调即可通过文本提示完成图像分类任务

模型能力

图像-文本匹配
跨模态检索
零样本图像分类
中文场景理解

使用案例

内容审核
违规内容检测
通过文本描述检测违规图像内容
可识别特定场景下的敏感内容
电子商务
商品搜索
通过自然语言描述查找匹配商品图片
提升搜索准确率和用户体验
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase