aimv2-3B-patch14-224オープンソースビジュアルモデル - マルチモーダル事前学習により複数のテストで卓越した性能を発揮

ホーム

Aimv2 3B Patch14 224

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くのベンチマークテストで優れた性能を発揮

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #開放語彙物体検出

ダウンロード数 57

リリース時間 : 10/29/2024

モデル概要

AIMv2は強力な視覚モデルで、マルチモーダル自己回帰目標で事前学習され、画像分類と理解タスクで優れた性能を示す

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標を用いた事前学習により、モデルの理解能力を向上

卓越した分類性能

ImageNetなど多くのベンチマークテストでトップクラスの精度を達成

大規模パラメータ

3Bパラメータの強力なモデルで、より豊富な視覚特徴を捉えることが可能

モデル能力

画像特徴抽出

画像分類

マルチモーダル理解

開放語彙物体検出

指示表現理解

使用事例

コンピュータビジョン

汎用画像分類

ImageNetなどの標準データセットでの画像分類

ImageNet-1k精度88.5%

細粒度分類

stanford-carsなどの細粒度分類タスクへの応用

stanford-cars精度96.5%

医療画像分析

camelyon17などの医療画像データセットへの応用

camelyon17精度93.5%

🚀 transformers

このライブラリは、画像特徴抽出に特化したVisionモデルAIMv2を提供しています。AIMv2は、多様なベンチマークで高い性能を発揮し、画像認識タスクにおいて優れた精度を達成しています。

🚀 クイックスタート

このライブラリでは、AIMv2モデルを使用して画像特徴抽出を行うことができます。以下のセクションでは、PyTorchとJAXでの使用例を紹介します。

✨ 主な機能

多様なベンチマークで、OAI CLIP、SigLIP、DINOv2を上回る性能を発揮。
AIMv2-3Bは、ImageNetで*89.5%*の精度を達成（凍結トランク使用時）。
オープンボキャブラリオブジェクト検出や参照表現理解で優れた性能を示す。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションは省略されました。

💻 使用例

基本的な使用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-3B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-3B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 ドキュメント

モデル情報

属性	詳情
モデルタイプ	image-feature-extraction
評価指標	accuracy

モデル性能

タスク	データセット	精度
分類	imagenet-1k	88.5%
分類	inaturalist-18	81.5%
分類	cifar10	99.5%
分類	cifar100	94.3%
分類	food101	96.8%
分類	dtd	88.9%
分類	oxford-pets	97.1%
分類	stanford-cars	96.5%
分類	camelyon17	93.5%
分類	patch-camelyon	89.4%
分類	rxrx1	7.3%
分類	eurosat	99.0%
分類	fmow	64.2%
分類	domainnet-infographic	72.2%

参考論文

[AIMv2 Paper] [BibTeX]

🔧 技術詳細

原READMEに技術詳細が記載されていないため、このセクションは省略されました。

📄 ライセンス

このライブラリは、apple-amlrライセンスの下で提供されています。

📖 引用

もしあなたがこの研究を利用する場合は、以下のように引用してください。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}