オープンソースのAIMv2-large-patch14-224ビジュアルモデル - 複数の実用的なビジュアルタスクを見事に達成

ホーム

Aimv2 Large Patch14 224

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くの視覚タスクで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #オープン語彙視覚理解 #高精度画像分類

ダウンロード数 759

リリース時間 : 10/29/2024

モデル概要

AIMv2はマルチモーダル自己回帰事前学習手法を採用し、強力な画像特徴抽出能力を持ち、様々な視覚分類タスクに適しています。

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標を用いた事前学習により、モデル性能を向上

卓越した分類性能

複数のベンチマークデータセットで最先端の分類精度を達成

強力な拡張性

シンプルで直接的な事前学習手法により、トレーニング規模を効果的に拡張可能

モデル能力

画像特徴抽出

画像分類

マルチモーダル理解

使用事例

コンピュータビジョン

汎用画像分類

ImageNetなどの汎用画像データセットでの分類

ImageNet-1k精度86.6%

細粒度分類

stanford-carsなどの細粒度分類タスクへの応用

stanford-cars精度96.3%

医療画像分析

camelyon17などの医療画像データセットへの応用

camelyon17精度93.7%

🚀 トランスフォーマーライブラリ

このライブラリは、画像特徴抽出に特化したビジョンモデルAIMv2を提供しています。AIMv2は、マルチモーダル自己回帰目的で事前学習されたモデルで、多くのベンチマークで優れた性能を発揮します。

🚀 クイックスタート

このセクションでは、AIMv2モデルの基本的な使い方を紹介します。

✨ 主な機能

多くのマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を発揮します。
AIMv2-3Bは、凍結されたトランクを使用してImageNetで89.5%の認識率を達成します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 詳細ドキュメント

モデル情報

属性	詳情
ライブラリ名	transformers
パイプラインタグ	画像特徴抽出
タグ	ビジョン、画像特徴抽出、mlx、pytorch
モデル名	aimv2-large-patch14-224

メトリクス

データセット名	タスク	精度	検証済み
imagenet-1k	分類	86.6	否
inaturalist-18	分類	76.0	否
cifar10	分類	99.1	否
cifar100	分類	92.2	否
food101	分類	95.7	否
dtd	分類	87.9	否
oxford-pets	分類	96.3	否
stanford-cars	分類	96.3	否
camelyon17	分類	93.7	否
patch-camelyon	分類	89.3	否
rxrx1	分類	5.6	否
eurosat	分類	98.4	否
fmow	分類	60.7	否
domainnet-infographic	分類	69.0	否

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。

📄 ライセンス

このプロジェクトは、apple-amlrライセンスの下で提供されています。

引用

もしこの研究が役に立った場合は、以下のように引用してください。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}