開源AIMv2-large-patch14-224視覺模型 - 出色完成多項實用視覺任務

首頁

Aimv2 Large Patch14 224

由apple開發

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多項視覺任務中表現優異。

圖像分類 #多模態自迴歸預訓練 #開放詞彙視覺理解 #高精度圖像分類

下載量 759

發布時間 : 10/29/2024

模型概述

AIMv2採用多模態自迴歸預訓練方法，具有強大的圖像特徵提取能力，適用於多種視覺分類任務。

模型特點

多模態自迴歸預訓練

採用創新的多模態自迴歸目標進行預訓練，提升模型性能

卓越的分類性能

在多個基準數據集上達到最先進的分類準確率

強大的擴展能力

預訓練方法簡單直接，能有效擴展訓練規模

模型能力

圖像特徵提取

圖像分類

多模態理解

使用案例

計算機視覺

通用圖像分類

在ImageNet等通用圖像數據集上進行分類

ImageNet-1k準確率86.6%

細粒度分類

在stanford-cars等細粒度分類任務上的應用

stanford-cars準確率96.3%

醫學圖像分析

在camelyon17等醫學圖像數據集上的應用

camelyon17準確率93.7%

🚀 圖像特徵提取模型AIMv2

AIMv2是一系列經過多模態自迴歸目標預訓練的視覺模型，訓練簡單直接，可有效擴展。該模型在多數多模態理解基準測試中表現出色，在開放詞彙目標檢測和指代表達理解等任務中也有優秀表現。

🚀 快速開始

模型信息

屬性	詳情
庫名稱	transformers
模型類型	圖像特徵提取
許可證	apple-amlr
評估指標	準確率
標籤	視覺、圖像特徵提取、mlx、pytorch

模型效果

任務類型	數據集	準確率
分類	imagenet-1k	86.6%
分類	inaturalist-18	76.0%
分類	cifar10	99.1%
分類	cifar100	92.2%
分類	food101	95.7%
分類	dtd	87.9%
分類	oxford-pets	96.3%
分類	stanford-cars	96.3%
分類	camelyon17	93.7%
分類	patch-camelyon	89.3%
分類	rxrx1	5.6%
分類	eurosat	98.4%
分類	fmow	60.7%
分類	domainnet-infographic	69.0%

模型亮點

在多數多模態理解基準測試中，性能優於OAI CLIP和SigLIP。
在開放詞彙目標檢測和指代表達理解任務上，表現優於DINOv2。
AIMv2 - 3B模型使用凍結主幹在ImageNet上達到89.5%的準確率。

模型概覽圖

💻 使用示例

基礎用法 - PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

高級用法 - JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 詳細文檔

論文鏈接：[AIMv2 Paper]
引用信息：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}

如果你覺得我們的工作有幫助，請考慮引用我們的論文。