aimv2-1B-patch14-336開源視覺模型 - 多模態理解能力強，測試表現優異

首頁

Aimv2 1B Patch14 336

由apple開發

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多項多模態理解基準測試中表現優異。

圖像分類 #多模態自迴歸預訓練 #高精度圖像分類 #開放詞彙目標檢測

下載量 52

發布時間 : 10/29/2024

模型概述

AIMv2 是一種視覺模型，採用多模態自迴歸目標進行預訓練，具有強大的圖像特徵提取和分類能力。

模型特點

多模態自迴歸預訓練

採用多模態自迴歸目標進行預訓練，提升模型在多模態理解任務中的表現。

高性能

在多項基準測試中表現優於 OAI CLIP 和 SigLIP，展現出強大的識別性能。

廣泛適用性

在多種數據集（如 ImageNet、CIFAR、Food101 等）上均表現出色。

模型能力

圖像特徵提取

圖像分類

多模態理解

使用案例

計算機視覺

圖像分類

對圖像進行分類，適用於多種數據集。

在 ImageNet-1k 上準確率達到 88.7%。

目標檢測

在開放詞彙目標檢測任務中表現優異。

優於 DINOv2 模型。

醫療影像

病理圖像分析

用於分析醫療影像數據。

在 Camelyon17 數據集上準確率達到 94.2%。

🚀 圖像特徵提取模型transformers

本項目引入了基於多模態自迴歸目標預訓練的AIMv2系列視覺模型。AIMv2預訓練簡單直接，能有效進行訓練和擴展。該模型在多模態理解基準測試中表現出色，在開放詞彙目標檢測和指代表達理解等任務上也有優秀表現。

🚀 快速開始

模型信息

屬性	詳情
庫名稱	transformers
許可證	apple-amlr
評估指標	準確率
任務類型	圖像特徵提取
標籤	視覺、圖像特徵提取、mlx、pytorch

模型性能

模型名稱	任務類型	數據集	準確率	驗證情況
aimv2-1B-patch14-336	分類	imagenet-1k	88.7	未驗證
aimv2-1B-patch14-336	分類	inaturalist-18	82.7	未驗證
aimv2-1B-patch14-336	分類	cifar10	99.4	未驗證
aimv2-1B-patch14-336	分類	cifar100	93.9	未驗證
aimv2-1B-patch14-336	分類	food101	97.1	未驗證
aimv2-1B-patch14-336	分類	dtd	88.9	未驗證
aimv2-1B-patch14-336	分類	oxford-pets	96.9	未驗證
aimv2-1B-patch14-336	分類	stanford-cars	96.5	未驗證
aimv2-1B-patch14-336	分類	camelyon17	94.2	未驗證
aimv2-1B-patch14-336	分類	patch-camelyon	89.5	未驗證
aimv2-1B-patch14-336	分類	rxrx1	8.4	未驗證
aimv2-1B-patch14-336	分類	eurosat	98.9	未驗證
aimv2-1B-patch14-336	分類	fmow	65.1	未驗證
aimv2-1B-patch14-336	分類	domainnet-infographic	73.7	未驗證

模型亮點

在大多數多模態理解基準測試中，性能優於OAI CLIP和SigLIP。
在開放詞彙目標檢測和指代表達理解任務上，表現優於DINOv2。
AIMv2 - 3B模型在使用凍結主幹網絡的情況下，在ImageNet上的識別準確率達到89.5%。

AIMv2 Overview

💻 使用示例

基礎用法 - PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

基礎用法 - JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 許可證

本項目使用的許可證為apple-amlr。

📖 引用

如果您覺得我們的工作有幫助，請考慮引用以下內容：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}