A

Aimv2 1B Patch14 224

由apple開發
AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列,在多項視覺任務中表現優異。
下載量 299
發布時間 : 10/29/2024

模型概述

AIMv2 是一種基於多模態自迴歸目標預訓練的大規模視覺編碼器,主要用於圖像特徵提取和分類任務。該模型在多個基準測試中表現出色,尤其在開放詞彙目標檢測和指代表達理解任務中優於同類模型。

模型特點

多模態自迴歸預訓練
採用創新的多模態自迴歸目標進行預訓練,有效提升模型性能
卓越的分類性能
在 ImageNet-1k 等多項分類任務中達到 88% 以上的準確率
跨任務泛化能力
在開放詞彙目標檢測和指代表達理解任務中優於 DINOv2

模型能力

圖像特徵提取
圖像分類
多模態理解
開放詞彙目標檢測
指代表達理解

使用案例

計算機視覺
通用圖像分類
用於 ImageNet 等標準圖像分類任務
ImageNet-1k 準確率 88.1%
細粒度分類
用於細粒度圖像分類如斯坦福汽車數據集
斯坦福汽車數據集準確率 96.5%
醫學圖像分析
用於醫學圖像分類如 Camelyon17 數據集
Camelyon17 準確率 94.2%
遙感圖像處理
衛星圖像分類
用於 EuroSAT 等衛星圖像分類任務
EuroSAT 準確率 98.8%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase