A

Aimv2 Large Patch14 336 Distilled

由apple開發
AIMv2是基於多模態自迴歸目標預訓練的視覺模型系列,在多模態理解基準測試中表現優異
下載量 37
發布時間 : 11/18/2024

模型概述

AIMv2採用創新的多模態自迴歸預訓練方法,在圖像特徵提取和多模態理解任務上展現卓越性能

模型特點

多模態自迴歸預訓練
採用創新的自迴歸目標進行預訓練,有效提升多模態理解能力
卓越性能表現
在多模態理解基準測試中超越CLIP和SigLIP等主流模型
強大識別能力
3B版本在ImageNet上達到89.5%準確率(凍結主幹網絡)
多框架支持
同時支持PyTorch和JAX框架

模型能力

圖像特徵提取
多模態理解
開放詞彙目標檢測
指代表達理解

使用案例

計算機視覺
圖像分類
用於高精度圖像分類任務
ImageNet上達到89.5%準確率
目標檢測
開放詞彙目標檢測應用
優於DINOv2模型
多模態應用
視覺-語言理解
用於圖像與文本的聯合理解任務
超越CLIP等主流模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase