A

Aimv2 Large Patch14 Native

由apple開發
AIMv2是採用多模態自迴歸目標預訓練的視覺模型系列,在多項多模態理解基準測試中表現優異。
下載量 788
發布時間 : 11/21/2024

模型概述

AIMv2通過多模態自迴歸目標進行預訓練,在圖像特徵提取和多模態理解任務上展現出卓越性能。

模型特點

卓越的多模態理解能力
在多數多模態理解基準測試中超越OpenAI CLIP和SigLIP模型
強大的識別性能
AIMv2-3B版本在使用凍結主幹網絡時達到ImageNet 89.5%準確率
開放詞彙理解優勢
在開放詞彙目標檢測和指代表達理解任務上優於DINOv2
高效預訓練方法
採用簡單直接的多模態自迴歸目標預訓練,能有效擴展訓練規模

模型能力

圖像特徵提取
多模態理解
開放詞彙目標檢測
指代表達理解
大規模視覺表示學習

使用案例

計算機視覺
圖像分類
使用預訓練特徵進行圖像分類任務
ImageNet上達到89.5%準確率
目標檢測
開放詞彙環境下的目標檢測
優於DINOv2模型
多模態應用
視覺-語言理解
圖像與文本的聯合表示學習
超越CLIP和SigLIP模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase