aimv2-3B-patch14-448開源視覺模型 - 多模態預訓練助力高效視覺理解

首頁

Aimv2 3B Patch14 448

由apple開發

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多個視覺理解基準測試中表現優異。

圖像分類 #多模態自迴歸預訓練 #高精度圖像分類 #開放詞彙檢測

下載量 161

發布時間 : 10/29/2024

模型概述

AIMv2系列視覺模型通過多模態自迴歸目標進行預訓練，具有強大的圖像特徵提取和分類能力，在多個基準測試中優於同類模型。

模型特點

多模態自迴歸預訓練

採用多模態自迴歸目標進行預訓練，有效提升模型性能。

卓越的分類性能

在多個基準測試中優於OpenAI CLIP、SigLIP和DINOv2等模型。

大規模參數

3B參數的模型規模，具備強大的特徵提取能力。

模型能力

圖像特徵提取

圖像分類

多模態理解

使用案例

計算機視覺

圖像分類

在ImageNet等數據集上進行高精度圖像分類。

ImageNet-1k準確率89.5%

細粒度分類

在stanford-cars等細粒度分類任務中表現優異。

stanford-cars準確率96.7%

醫學影像

病理圖像分析

在camelyon17等醫學影像數據集上進行分類。

camelyon17準確率93.4%

🚀 圖像特徵提取模型AIMv2

AIMv2是一系列基於多模態自迴歸目標進行預訓練的視覺模型，訓練和擴展簡單直接且高效。在多數多模態理解基準測試中表現出色，在開放詞彙對象檢測和指代表達理解等任務中也有優秀表現。

🚀 快速開始

模型信息

屬性	詳情
庫名稱	transformers
許可證	apple-amlr
評估指標	準確率
任務類型	圖像特徵提取
標籤	視覺、圖像特徵提取、mlx、pytorch

模型性能

任務	數據集	準確率	是否驗證
分類	imagenet-1k	89.5%	否
分類	inaturalist-18	85.9%	否
分類	cifar10	99.5%	否
分類	cifar100	94.5%	否
分類	food101	97.4%	否
分類	dtd	89.0%	否
分類	oxford-pets	97.4%	否
分類	stanford-cars	96.7%	否
分類	camelyon17	93.4%	否
分類	patch-camelyon	89.9%	否
分類	rxrx1	9.5%	否
分類	eurosat	98.9%	否
分類	fmow	66.1%	否
分類	domainnet-infographic	74.8%	否

模型亮點

在多數多模態理解基準測試中，性能優於OAI CLIP和SigLIP。
在開放詞彙對象檢測和指代表達理解任務中，表現優於DINOv2。
AIMv2 - 3B在使用凍結主幹的情況下，在ImageNet上達到了89.5%的準確率。

模型概述圖

AIMv2 Overview

💻 使用示例

基礎用法 - PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-448",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

基礎用法 - JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 許可證

本項目使用的許可證為apple-amlr。

📚 詳細文檔

論文引用

[AIMv2 Paper] [BibTeX]

如果您覺得我們的工作有用，請考慮引用我們的論文：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}