aimv2-1B-patch14-224開源視覺模型 - 多模態預訓練助力視覺任務處理

首頁

Aimv2 1B Patch14 224

由apple開發

AIMv2 是通過多模態自迴歸目標預訓練的視覺模型系列，在多項視覺任務中表現優異。

圖像分類 #多模態自迴歸預訓練 #高精度圖像分類 #開放詞彙檢測

下載量 299

發布時間 : 10/29/2024

模型概述

AIMv2 是一種基於多模態自迴歸目標預訓練的大規模視覺編碼器，主要用於圖像特徵提取和分類任務。該模型在多個基準測試中表現出色，尤其在開放詞彙目標檢測和指代表達理解任務中優於同類模型。

模型特點

多模態自迴歸預訓練

採用創新的多模態自迴歸目標進行預訓練，有效提升模型性能

卓越的分類性能

在 ImageNet-1k 等多項分類任務中達到 88% 以上的準確率

跨任務泛化能力

在開放詞彙目標檢測和指代表達理解任務中優於 DINOv2

模型能力

圖像特徵提取

圖像分類

多模態理解

開放詞彙目標檢測

指代表達理解

使用案例

計算機視覺

通用圖像分類

用於 ImageNet 等標準圖像分類任務

ImageNet-1k 準確率 88.1%

細粒度分類

用於細粒度圖像分類如斯坦福汽車數據集

斯坦福汽車數據集準確率 96.5%

醫學圖像分析

用於醫學圖像分類如 Camelyon17 數據集

Camelyon17 準確率 94.2%

遙感圖像處理

衛星圖像分類

用於 EuroSAT 等衛星圖像分類任務

EuroSAT 準確率 98.8%

🚀 AIMv2 視覺模型

AIMv2 是一系列基於多模態自迴歸目標進行預訓練的視覺模型，訓練和擴展簡單高效。在多數多模態理解基準測試中表現出色，在開放詞彙目標檢測和指代表達理解任務中超越 DINOv2，AIMv2 - 3B 在 ImageNet 上使用凍結主幹實現了 89.5% 的準確率。

🚀 快速開始

模型信息

屬性	詳情
庫名稱	transformers
許可證	apple - amlr
評估指標	準確率
任務類型	圖像特徵提取
標籤	視覺、圖像特徵提取、mlx、pytorch

模型性能

模型名稱	任務類型	數據集	準確率	驗證狀態
aimv2 - 1B - patch14 - 224	分類	imagenet - 1k	88.1	未驗證
aimv2 - 1B - patch14 - 224	分類	inaturalist - 18	79.7	未驗證
aimv2 - 1B - patch14 - 224	分類	cifar10	99.4	未驗證
aimv2 - 1B - patch14 - 224	分類	cifar100	94.1	未驗證
aimv2 - 1B - patch14 - 224	分類	food101	96.7	未驗證
aimv2 - 1B - patch14 - 224	分類	dtd	88.4	未驗證
aimv2 - 1B - patch14 - 224	分類	oxford - pets	96.8	未驗證
aimv2 - 1B - patch14 - 224	分類	stanford - cars	96.5	未驗證
aimv2 - 1B - patch14 - 224	分類	camelyon17	94.2	未驗證
aimv2 - 1B - patch14 - 224	分類	patch - camelyon	89.0	未驗證
aimv2 - 1B - patch14 - 224	分類	rxrx1	6.7	未驗證
aimv2 - 1B - patch14 - 224	分類	eurosat	98.8	未驗證
aimv2 - 1B - patch14 - 224	分類	fmow	63.2	未驗證
aimv2 - 1B - patch14 - 224	分類	domainnet - infographic	71.7	未驗證

模型介紹

[AIMv2 論文] [BibTeX]

我們推出了 AIMv2 系列視覺模型，這些模型通過多模態自迴歸目標進行預訓練。AIMv2 預訓練簡單直接，能夠有效進行訓練和擴展。AIMv2 的一些亮點包括：

在大多數多模態理解基準測試中超越 OAI CLIP 和 SigLIP。
在開放詞彙目標檢測和指代表達理解方面超越 DINOv2。
展現出強大的識別性能，AIMv2 - 3B 使用凍結主幹在 ImageNet 上達到了 89.5% 的準確率。

AIMv2 概述

💻 使用示例

基礎用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 許可證

本項目使用 apple - amlr 許可證。

📚 引用

如果您覺得我們的工作有用，請考慮引用我們的論文：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}