M

Mlcd Vit Large Patch14 336

由DeepGlint-AI開發
基於ViT-L/14@336px架構的視覺特徵提取模型,在多項多模態任務中超越CLIP基準
下載量 1,450
發布時間 : 10/11/2024

模型概述

該模型採用與CLIP相同的視覺Transformer架構,專注於圖像特徵提取,特別優化了在多模態大語言模型(MLLMs)中的表現。

模型特點

多模態優化
專門針對多模態大語言模型(MLLMs)優化,在LLaVA-NeXT等框架中表現優異
高性能特徵提取
在20+個基準測試中全面超越CLIP同架構模型,平均提升1.8-2.0個百分點
大規模訓練數據
基於LAION400M和COYO700M兩大公開數據集訓練,覆蓋廣泛視覺概念

模型能力

圖像特徵提取
多模態表徵學習
視覺問答支持
圖像分類
跨模態檢索

使用案例

多模態大語言模型
LLaVA-NeXT視覺骨幹
作為視覺編碼器集成到LLaVA-NeXT框架中
在AI2D(76.98)、ScienceQA_img(78.09)等12個基準中超越CLIP
計算機視覺
線性分類任務
凍結特徵提取器進行線性探測
在CIFAR-100(93.69)、FGVC飛機(86.38)等任務中顯著優於CLIP
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase