aimv2-3B-patch14-224開源視覺模型 - 多模態預訓練實現多項測試優異表現

首頁

Aimv2 3B Patch14 224

由apple開發

AIMv2是通過多模態自迴歸目標預訓練的視覺模型系列，在多項基準測試中表現優異

圖像分類 #多模態自迴歸預訓練 #高精度圖像分類 #開放詞彙目標檢測

下載量 57

發布時間 : 10/29/2024

模型概述

AIMv2是一個強大的視覺模型，通過多模態自迴歸目標進行預訓練，在圖像分類和理解任務中表現出色

模型特點

多模態自迴歸預訓練

採用創新的多模態自迴歸目標進行預訓練，提高模型理解能力

卓越的分類性能

在ImageNet等多項基準測試中達到頂尖準確率

大規模參數

3B參數的強大模型，能夠捕捉更豐富的視覺特徵

模型能力

圖像特徵提取

圖像分類

多模態理解

開放詞彙目標檢測

指代表達理解

使用案例

計算機視覺

通用圖像分類

在ImageNet等標準數據集上進行圖像分類

ImageNet-1k準確率88.5%

細粒度分類

在stanford-cars等細粒度分類任務中的應用

stanford-cars準確率96.5%

醫學圖像分析

在camelyon17等醫學圖像數據集上的應用

camelyon17準確率93.5%

🚀 圖像特徵提取模型AIMv2

AIMv2是一系列基於多模態自迴歸目標進行預訓練的視覺模型，訓練過程簡單直接，可有效擴展。該模型在多模態理解基準測試中表現出色，在多個分類任務上展現了高準確率。

🚀 快速開始

AIMv2是一系列通過多模態自迴歸目標進行預訓練的視覺模型。AIMv2預訓練簡單直接，能夠有效進行訓練和擴展。以下是AIMv2的一些亮點：

在大多數多模態理解基準測試中，性能優於OAI CLIP和SigLIP。
在開放詞彙對象檢測和指代表達理解方面，性能優於DINOv2。
展現出強大的識別性能，AIMv2 - 3B在使用凍結主幹網絡的情況下，在ImageNet上達到了89.5%的準確率。

AIMv2概述

✨ 主要特性

多模態理解出色：在多模態理解基準測試中超越OAI CLIP和SigLIP。
開放詞彙任務表現佳：在開放詞彙對象檢測和指代表達理解上優於DINOv2。
高識別準確率：AIMv2 - 3B在ImageNet上使用凍結主幹網絡時準確率達89.5%。

📦 安裝指南

文檔未提及安裝步驟，可參考transformers庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 詳細文檔

模型信息

屬性	詳情
庫名稱	transformers
許可證	apple - amlr
評估指標	accuracy
任務類型	圖像特徵提取
標籤	vision、image - feature - extraction、mlx、pytorch
模型名稱	aimv2 - 3B - patch14 - 224

模型性能

任務類型	數據集名稱	準確率	是否驗證
分類	imagenet - 1k	88.5%	否
分類	inaturalist - 18	81.5%	否
分類	cifar10	99.5%	否
分類	cifar100	94.3%	否
分類	food101	96.8%	否
分類	dtd	88.9%	否
分類	oxford - pets	97.1%	否
分類	stanford - cars	96.5%	否
分類	camelyon17	93.5%	否
分類	patch - camelyon	89.4%	否
分類	rxrx1	7.3%	否
分類	eurosat	99.0%	否
分類	fmow	64.2%	否
分類	domainnet - infographic	72.2%	否

📄 許可證

本項目使用apple - amlr許可證。

📖 引用

如果您覺得我們的工作有用，請考慮按以下方式引用：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}