A

Aimv2 Large Patch14 224 Lit

由apple開發
AIMv2是一個採用多模態自迴歸目標預訓練的視覺模型系列,在多項多模態理解基準測試中表現優異。
下載量 222
發布時間 : 11/20/2024

模型概述

AIMv2通過多模態自迴歸目標進行預訓練,在圖像分類、目標檢測等任務上展現出強大的性能。

模型特點

多模態自迴歸預訓練
採用創新的自迴歸目標進行預訓練,實現更好的多模態理解能力
卓越的基準測試表現
在多數多模態理解基準測試中超越OpenAI CLIP和SigLIP模型
強大的識別性能
3B版本在使用凍結主幹網絡時,在ImageNet上達到89.5%準確率
廣泛的應用能力
在開放詞彙目標檢測和指代表達理解任務上優於DINOv2

模型能力

零樣本圖像分類
多模態理解
開放詞彙目標檢測
指代表達理解

使用案例

計算機視覺
圖像分類
對圖像內容進行分類識別
ImageNet上89.5%準確率
目標檢測
檢測圖像中的特定目標
優於DINOv2模型
多模態應用
圖文匹配
理解圖像與文本描述之間的關係
超越CLIP和SigLIP模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase