M

Mlcd Vit Large Patch14 336

由 DeepGlint-AI 开发
基于ViT-L/14@336px架构的视觉特征提取模型,在多项多模态任务中超越CLIP基准
下载量 1,450
发布时间 : 10/11/2024

模型简介

该模型采用与CLIP相同的视觉Transformer架构,专注于图像特征提取,特别优化了在多模态大语言模型(MLLMs)中的表现。

模型特点

多模态优化
专门针对多模态大语言模型(MLLMs)优化,在LLaVA-NeXT等框架中表现优异
高性能特征提取
在20+个基准测试中全面超越CLIP同架构模型,平均提升1.8-2.0个百分点
大规模训练数据
基于LAION400M和COYO700M两大公开数据集训练,覆盖广泛视觉概念

模型能力

图像特征提取
多模态表征学习
视觉问答支持
图像分类
跨模态检索

使用案例

多模态大语言模型
LLaVA-NeXT视觉骨干
作为视觉编码器集成到LLaVA-NeXT框架中
在AI2D(76.98)、ScienceQA_img(78.09)等12个基准中超越CLIP
计算机视觉
线性分类任务
冻结特征提取器进行线性探测
在CIFAR-100(93.69)、FGVC飞机(86.38)等任务中显著优于CLIP
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase