A

Aimv2 Large Patch14 224 Distilled

由apple開發
AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列,在多模態理解基準測試中表現優異。
下載量 236
發布時間 : 11/4/2024

模型概述

AIMv2是一種高效的視覺模型,採用多模態自迴歸目標預訓練,適用於圖像特徵提取等任務,在多項基準測試中超越同類模型。

模型特點

多模態預訓練
採用自迴歸目標進行多模態預訓練,提升模型理解能力
高性能表現
在多項基準測試中超越CLIP、SigLIP和DINOv2等模型
高效擴展
預訓練方法簡單直接,能高效擴展到更大規模
高準確率
AIMv2-3B在ImageNet上達到89.5%的準確率

模型能力

圖像特徵提取
多模態理解
開放詞彙目標檢測
指代表達理解

使用案例

計算機視覺
圖像分類
用於高精度圖像分類任務
ImageNet上達到89.5%準確率
目標檢測
開放詞彙目標檢測
超越DINOv2模型
多模態應用
視覺語言理解
理解圖像與文本的關聯
在多模態理解基準中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase