aimv2-huge-patch14-336オープンソースビジュアルモデル - マルチモーダル事前学習でビジュアル理解をサポート！

ホーム

Aimv2 Huge Patch14 336

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、複数の視覚理解ベンチマークテストで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #開放語彙物体検出

ダウンロード数 188

リリース時間 : 10/29/2024

モデル概要

AIMv2は効率的な視覚モデルで、マルチモーダル自己回帰目標事前学習手法を採用し、画像分類や特徴抽出タスクに適しています。

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標で事前学習を行い、モデル性能を向上させます。

優れたベンチマークテスト性能

CLIPやSigLIPなどのモデルを上回る複数の視覚理解ベンチマークテスト結果。

強力な認識性能

ImageNetなどのデータセットで高い精度を達成。

モデル能力

画像分類

画像特徴抽出

マルチモーダル理解

使用事例

コンピュータビジョン

画像分類

画像を分類し、複数のデータセットをサポートします。

ImageNet-1kで88.2%の精度を達成

細粒度分類

特定ドメインの画像を細かく分類します。

Stanford Carsで96.4%の精度を達成

医療画像

病理画像分析

医療画像の分類と分析に使用されます。

Camelyon17で93.3%の精度を達成

🚀 トランスフォーマーモデル

このプロジェクトは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを提供します。AIMv2は、多くのベンチマークで優れた性能を発揮し、効果的なトレーニングとスケーリングが可能です。

🚀 クイックスタート

このモデルは、画像特徴抽出に使用できます。以下のセクションでは、PyTorchとJAXでの使用方法を説明します。

✨ 主な機能

多くのマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を示します。
AIMv2-3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。

💻 使用例

基本的な使用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 ドキュメント

[AIMv2 Paper] [BibTeX]

このモデルは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルです。AIMv2の事前学習は、簡単かつ効果的にトレーニングとスケーリングが可能です。

📄 ライセンス

このプロジェクトは、apple-amlrライセンスの下で提供されています。

📊 メトリクス

データセット	タスク	精度
imagenet-1k	分類	88.2%
inaturalist-18	分類	81.0%
cifar10	分類	99.3%
cifar100	分類	93.6%
food101	分類	96.6%
dtd	分類	88.8%
oxford-pets	分類	96.8%
stanford-cars	分類	96.4%
camelyon17	分類	93.3%
patch-camelyon	分類	89.4%
rxrx1	分類	7.2%
eurosat	分類	98.7%
fmow	分類	63.9%
domainnet-infographic	分類	73.4%

📄 引用

もしこの研究が役に立った場合は、以下のように引用してください。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}