A

Aimv2 Huge Patch14 224

由apple開發
AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列,在多項基準測試中表現優異。
下載量 54
發布時間 : 10/29/2024

模型概述

AIMv2 是一種先進的視覺模型,採用多模態自迴歸預訓練方法,在圖像分類和特徵提取任務中表現出色。

模型特點

多模態自迴歸預訓練
採用創新的多模態自迴歸目標進行預訓練,提升模型性能
卓越的基準測試表現
在多個視覺基準測試中優於CLIP、SigLIP和DINOv2等模型
大規模擴展能力
預訓練方法簡單直接,能有效擴展訓練規模

模型能力

圖像分類
圖像特徵提取
多模態理解
開放詞彙目標檢測
指代表達理解

使用案例

計算機視覺
圖像分類
在ImageNet等數據集上進行高精度圖像分類
在ImageNet-1k上達到87.5%準確率
細粒度分類
對特定領域的細粒度圖像分類
在stanford-cars上達到96.4%準確率
醫學圖像分析
醫學圖像分類和分析
在camelyon17上達到93.3%準確率
多模態應用
開放詞彙目標檢測
檢測圖像中未在訓練集中明確標註的物體
性能優於DINOv2
指代表達理解
理解自然語言指代表達並定位圖像中的對應區域
性能優於DINOv2
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase