aimv2-huge-patch14-448オープンソースビジョンモデル - マルチモーダル事前学習、ベンチマークテストで良好なパフォーマンス

ホーム

Aimv2 Huge Patch14 448

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、複数のベンチマークテストで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #オープン語彙理解

ダウンロード数 1,672

リリース時間 : 10/29/2024

モデル概要

AIMv2は効率的な視覚モデルで、マルチモーダル自己回帰目標を用いた事前学習を行い、画像分類や特徴抽出などのタスクで優れた性能を示します。

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標を用いた事前学習により、モデル性能を向上

卓越したベンチマーク性能

CLIP、SigLIP、DINOv2などのモデルを凌駕する複数の視覚ベンチマークでの性能

強力な認識能力

ImageNetで89.5%の精度を達成し、優れた認識性能を発揮

モデル能力

画像特徴抽出

画像分類

マルチモーダル理解

オープン語彙物体検出

指示表現理解

使用事例

コンピュータビジョン

画像分類

画像を分類・識別

ImageNet-1kで88.6%の精度

自然画像認識

自然シーン中の物体を認識

iNaturalist-18で82.8%の精度

細粒度分類

細粒度物体分類を実施

Stanford Carsで96.5%の精度

医療画像

病理画像分析

医療病理画像を分析

Camelyon17で93.4%の精度

🚀 画像特徴抽出用VisionモデルAIMv2

AIMv2は、多モーダル自己回帰目的で事前学習されたVisionモデルファミリーで、多くのベンチマークで優れた性能を発揮します。

🚀 クイックスタート

[AIMv2論文] [BibTeX]

私たちは、多モーダル自己回帰目的で事前学習されたVisionモデルのAIMv2ファミリーを紹介します。AIMv2の事前学習はシンプルで、効果的にスケールできます。AIMv2の主な特徴は以下の通りです。

多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回る性能を示します。
AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の高い認識性能を達成します。

✨ 主な機能

属性	详情
ライブラリ名	transformers
ライセンス	apple - amlr
評価指標	精度
パイプラインタグ	画像特徴抽出
タグ	ビジョン、画像特徴抽出、mlx、pytorch
モデル名	aimv2 - huge - patch14 - 448

各データセットでの精度

データセット名	タイプ	精度	検証済み
imagenet - 1k	imagenet - 1k	88.6	否
inaturalist - 18	inaturalist - 18	82.8	否
cifar10	cifar10	99.4	否
cifar100	cifar100	93.6	否
food101	food101	97.0	否
dtd	dtd	88.9	否
oxford - pets	oxford - pets	96.8	否
stanford - cars	stanford - cars	96.5	否
camelyon17	camelyon17	93.4	否
patch - camelyon	patch - camelyon	89.6	否
rxrx1	rxrx1	7.8	否
eurosat	eurosat	98.7	否
fmow	fmow	64.8	否
domainnet - infographic	domainnet - infographic	74.5	否

💻 使用例

基本的な使用法（PyTorch）

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-448",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

基本的な使用法（JAX）

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-huge-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-huge-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📄 ライセンス

このプロジェクトはapple - amlrライセンスの下で提供されています。

📚 引用

もしあなたが私たちの研究が役に立ったと感じた場合は、以下のように引用してください。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}