aimv2-huge-patch14-224開源視覺模型 - 多模態預訓練助力優異基準測試表現

首頁

Aimv2 Huge Patch14 224

由apple開發

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多項基準測試中表現優異。

圖像分類 #多模態自迴歸預訓練 #高精度圖像分類 #開放詞彙目標檢測

下載量 54

發布時間 : 10/29/2024

模型概述

AIMv2 是一種先進的視覺模型，採用多模態自迴歸預訓練方法，在圖像分類和特徵提取任務中表現出色。

模型特點

多模態自迴歸預訓練

採用創新的多模態自迴歸目標進行預訓練，提升模型性能

卓越的基準測試表現

在多個視覺基準測試中優於CLIP、SigLIP和DINOv2等模型

大規模擴展能力

預訓練方法簡單直接，能有效擴展訓練規模

模型能力

圖像分類

圖像特徵提取

多模態理解

開放詞彙目標檢測

指代表達理解

使用案例

計算機視覺

圖像分類

在ImageNet等數據集上進行高精度圖像分類

在ImageNet-1k上達到87.5%準確率

細粒度分類

對特定領域的細粒度圖像分類

在stanford-cars上達到96.4%準確率

醫學圖像分析

醫學圖像分類和分析

在camelyon17上達到93.3%準確率

多模態應用

開放詞彙目標檢測

檢測圖像中未在訓練集中明確標註的物體

性能優於DINOv2

指代表達理解

理解自然語言指代表達並定位圖像中的對應區域

性能優於DINOv2

🚀 圖像特徵提取模型transformers

本項目引入了基於多模態自迴歸目標進行預訓練的AIMv2視覺模型家族。AIMv2預訓練簡單直接，能夠有效進行訓練和擴展。其在多數多模態理解基準測試中表現出色，在開放詞彙目標檢測和指代表達理解任務中也有優異表現。

🚀 快速開始

項目介紹

[AIMv2論文] [BibTeX]

我們推出了AIMv2系列視覺模型，該系列模型通過多模態自迴歸目標進行預訓練。AIMv2的預訓練過程簡單直接，能夠有效進行訓練和擴展。AIMv2的一些亮點包括：

在大多數多模態理解基準測試中，性能優於OAI CLIP和SigLIP。
在開放詞彙目標檢測和指代表達理解方面，性能優於DINOv2。
展現出強大的識別性能，AIMv2 - 3B在使用凍結主幹的情況下，在ImageNet上達到了*89.5%的準確率。

AIMv2概述

✨ 主要特性

多模態理解能力強：在多數多模態理解基準測試中，超越OAI CLIP和SigLIP。
開放詞彙任務表現優：在開放詞彙目標檢測和指代表達理解任務上，優於DINOv2。
識別性能出色：AIMv2 - 3B在使用凍結主幹時，在ImageNet上能達到較高準確率。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 詳細文檔

模型指標

屬性	詳情
庫名稱	transformers
許可證	apple - amlr
評估指標	準確率
任務類型	圖像特徵提取
標籤	視覺、圖像特徵提取、mlx、pytorch

模型表現

數據集	準確率
imagenet - 1k	87.5
inaturalist - 18	77.9
cifar10	99.3
cifar100	93.5
food101	96.3
dtd	88.2
oxford - pets	96.6
stanford - cars	96.4
camelyon17	93.3
patch - camelyon	89.3
rxrx1	5.8
eurosat	98.5
fmow	62.2
domainnet - infographic	70.4

📄 許可證

本項目使用的許可證為apple - amlr。

📚 引用

如果您覺得我們的工作有用，請考慮按以下方式引用我們：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}