aimv2-1B-patch14-448オープンソースビジュアルモデル - マルチモーダルビジュアル理解は高精度で効率的

ホーム

Aimv2 1B Patch14 448

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、複数の視覚理解ベンチマークで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #開放語彙検出

ダウンロード数 71

リリース時間 : 10/29/2024

モデル概要

AIMv2は効率的な視覚モデルで、マルチモーダル自己回帰目標による事前学習を行い、画像分類や物体検出などのタスクで優れた性能を示します。

モデル特徴

マルチモーダル自己回帰事前学習

マルチモーダル自己回帰目標を用いた事前学習により、モデルの汎化能力と性能が向上しました。

高性能

複数の視覚理解ベンチマークでCLIPやSigLIPなどのモデルを上回る性能を示します。

効率的なスケーリング

シンプルで直接的な事前学習方法により、大規模モデルへの効率的な拡張が可能です。

モデル能力

画像特徴抽出

画像分類

マルチモーダル理解

使用事例

コンピュータビジョン

画像分類

ImageNet-1kなどのデータセットで画像分類タスクを実行します。

精度89.0%

開放語彙物体検出

開放語彙物体検出タスクでDINOv2を上回る性能を示します。

指示表現理解

指示表現理解タスクでDINOv2を上回る性能を示します。

🚀 トランスフォーマーライブラリ

このライブラリは、画像特徴抽出に特化したビジョンモデルを提供します。マルチモーダル自己回帰目的で事前学習されたAIMv2ファミリーのモデルを含み、多くのベンチマークで優れた性能を発揮します。

🚀 クイックスタート

このライブラリを使用することで、画像特徴抽出を簡単に行うことができます。以下に使用例を示します。

💻 使用例

基本的な使用法（PyTorch）

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-448",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

基本的な使用法（JAX）

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-448",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 ドキュメント

[AIMv2 Paper] [BibTeX]

我々は、マルチモーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的に拡張できます。AIMv2の主な特長は以下の通りです。

大多数のマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を発揮します。
AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。

モデル情報

属性	详情
モデルタイプ	画像特徴抽出
トレーニングデータ	複数のデータセット（imagenet - 1k、inaturalist - 18、cifar10など）
評価指標	正解率（accuracy）

モデル性能

タスク	データセット	正解率
分類	imagenet - 1k	89.0%
分類	inaturalist - 18	83.8%
分類	cifar10	99.4%
分類	cifar100	94.1%
分類	food101	97.2%
分類	dtd	88.9%
分類	oxford - pets	97.1%
分類	stanford - cars	96.6%
分類	camelyon17	93.5%
分類	patch - camelyon	89.9%
分類	rxrx1	9.2%
分類	eurosat	99.1%
分類	fmow	65.9%
分類	domainnet - infographic	74.4%

📄 ライセンス

このライブラリは、apple - amlrライセンスの下で提供されています。

📖 引用

もしこの研究が役に立った場合は、以下のように引用してください。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}