CLIP-SAE-ViT-L-14开源模型 - 零样本图像分类出色，对抗性排版攻击识别利器

CLIP SAE ViT L 14

由 zer0int 开发

基于稀疏自编码器（SAE）微调的CLIP模型，在零样本图像分类任务中表现优异，尤其擅长对抗性排版攻击识别

下载量 32

发布时间 : 12/8/2024

模型简介

该模型是对OpenAI CLIP ViT-L/14的微调版本，通过稀疏自编码器技术提升对抗鲁棒性，在ImageNet/ObjectNet等基准测试中表现优于原始模型

对抗鲁棒性增强

通过稀疏自编码器技术提升模型对对抗性排版攻击的识别能力

高性能表现

在ImageNet/ObjectNet测试中达到89%准确率，优于原始CLIP模型的84.5%

腾讯混元视频适配

特别适配腾讯混元视频框架的最佳选择

线性探测任务优势

在CLIP_benchmark的线性探测任务中表现最佳

零样本图像分类

对抗性样本识别

多模态理解

文本-图像匹配

内容安全

对抗性排版攻击检测

识别经过特殊排版处理的对抗性图像

可准确分类黑白猫/狗等对抗样本

视频处理

腾讯混元视频集成

作为视频理解模块的视觉编码器

需配合专用ComfyUI节点使用效果最佳

本项目是对CLIP ViT-L/14模型进行微调，采用SAE信息对抗训练的方法，在图像分类任务上取得了不错的效果，同时提供了模型的下载和使用方式，方便用户进行尝试和研究。

SAE定义：SAE 即稀疏自动编码器（Sparse autoencoder）。
准确率对比：在 ImageNet/ObjectNet 数据集上，my GmP 模型准确率达到 91%，本项目基于 SAE 微调后的模型准确率为 89%，而 OpenAI 预训练模型准确率为 84.5%。
灵活使用：可以搭配 Flux.1 使用，你可以下载仅文本编码器 TE 版本 ⬇️ 进行尝试。
优异表现：此 SAE CLIP 在 LAION - AI/CLIP_benchmark 的线性探测任务中取得了最佳结果。
适配性好：该 CLIP 模型的直接下载链接所对应的模型，也是 HunyuanVideo 最合适使用的 CLIP 模型。不过需要搭配 zer0int/ComfyUI - HunyuanVideo - Nyan 节点使用（该节点可改变大语言模型与 CLIP 的影响权重，否则差异很小）。