AIMV2-Huge-Patch14-224オープンソースビジョンモデル - マルチモーダル事前学習による優れたベンチマークテスト性能

ホーム

Aimv2 Huge Patch14 224

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くのベンチマークテストで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #オープン語彙物体検出

ダウンロード数 54

リリース時間 : 10/29/2024

モデル概要

AIMv2は先進的な視覚モデルで、マルチモーダル自己回帰事前学習手法を採用し、画像分類と特徴抽出タスクで優れた性能を示します。

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標で事前学習を行い、モデル性能を向上

優れたベンチマーク性能

複数の視覚ベンチマークでCLIP、SigLIP、DINOv2などのモデルを上回る

大規模スケーリング能力

事前学習方法がシンプルで直接的であり、トレーニング規模を効果的に拡張可能

モデル能力

画像分類

画像特徴抽出

マルチモーダル理解

オープン語彙物体検出

指示表現理解

使用事例

コンピュータビジョン

画像分類

ImageNetなどのデータセットで高精度な画像分類を実施

ImageNet-1kで87.5%の精度を達成

細粒度分類

特定ドメインの細粒度画像分類

stanford-carsで96.4%の精度を達成

医療画像分析

医療画像の分類と分析

camelyon17で93.3%の精度を達成

マルチモーダルアプリケーション

オープン語彙物体検出

トレーニングセットで明示的にラベル付けされていない物体を画像から検出

DINOv2を上回る性能

指示表現理解

自然言語の指示表現を理解し、画像内の対応領域を特定

DINOv2を上回る性能

🚀 画像特徴抽出モデルAIMv2

AIMv2は、多モーダル自己回帰目的で事前学習されたビジョンモデルファミリーです。簡単かつ効果的に学習とスケーリングが可能で、多くのベンチマークで高い性能を発揮します。

🔍 基本情報

属性	详情
ライブラリ名	transformers
ライセンス	apple-amlr
評価指標	accuracy
パイプラインタグ	image-feature-extraction
タグ	vision, image-feature-extraction, mlx, pytorch

📊 モデル性能

タスク	データセット	精度
分類	imagenet-1k	87.5%
分類	inaturalist-18	77.9%
分類	cifar10	99.3%
分類	cifar100	93.5%
分類	food101	96.3%
分類	dtd	88.2%
分類	oxford-pets	96.6%
分類	stanford-cars	96.4%
分類	camelyon17	93.3%
分類	patch-camelyon	89.3%
分類	rxrx1	5.8%
分類	eurosat	98.5%
分類	fmow	62.2%
分類	domainnet-infographic	70.4%

🚀 クイックスタート

[AIMv2論文] [BibTeX]

我々は、多モーダル自己回帰目的で事前学習されたAIMv2ビジョンモデルファミリーを紹介します。AIMv2の事前学習は簡単で、効果的に学習とスケーリングが可能です。AIMv2の主な特徴は以下の通りです。

多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を示します。
AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。

💻 使用例

基本的な使用法（PyTorch）

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

高度な使用法（JAX）

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 ライセンス

本プロジェクトはapple-amlrライセンスの下で提供されています。

📚 引用

もしあなたが我々の研究が役に立ったと感じたら、以下のように引用していただけると幸いです。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}