aimv2-large-patch14-336オープンソース视觉モデル - 多様な视觉タスクに适し、优れた表现を示す

ホーム

Aimv2 Large Patch14 336

appleによって開発

AIMv2はマルチモーダル自己回帰目標事前学習に基づく視覚モデルシリーズで、多くの視覚タスクで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #オープン語彙検出

ダウンロード数 6,177

リリース時間 : 10/29/2024

モデル概要

AIMv2はマルチモーダル自己回帰目標事前学習手法を採用し、画像分類などの視覚タスクで強力な性能を示し、多様な視覚データセットの処理をサポートします。

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標を用いた事前学習により、モデル性能を向上

卓越した分類性能

ImageNetなど多くのベンチマークテストで同類モデルを凌駕

幅広いデータセットサポート

自然画像から医療画像まで多様なタイプのデータセットをサポート

モデル能力

画像特徴抽出

マルチクラス画像分類

クロスドメイン視覚理解

使用事例

コンピュータビジョン

汎用画像分類

自然画像の分類識別

ImageNet-1kで87.6%の精度を達成

細粒度分類

特定領域の詳細分類タスク

Stanford Carsで96.7%の精度を達成

医療画像分析

医療画像分類タスクの処理

Camelyon17で93.8%の精度を達成

🚀 トランスフォーマー

このライブラリは、画像特徴抽出に特化したビジョンモデルを提供します。多様なデータセットで高い精度を達成し、多様なタスクに対応できます。

🚀 クイックスタート

[AIMv2論文] [BibTeX]

私たちは、マルチモーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的にスケールできます。AIMv2の主な特徴は以下の通りです。

大多数のマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回ります。
オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回ります。
AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の高い認識性能を発揮します。

✨ 主な機能

画像特徴抽出に特化したビジョンモデルを提供。
多様なデータセットで高い精度を達成。
マルチモーダル理解ベンチマークや物体検出などのタスクで優れた性能を発揮。

💻 使用例

基本的な使用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-large-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-large-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 ドキュメント

属性	详情
ライブラリ名	transformers
パイプラインタグ	画像特徴抽出
タグ	ビジョン、画像特徴抽出、mlx、pytorch
モデル名	aimv2-large-patch14-336
評価指標	精度
データセット	imagenet - 1k、inaturalist - 18、cifar10、cifar100、food101、dtd、oxford - pets、stanford - cars、camelyon17、patch - camelyon、rxrx1、eurosat、fmow、domainnet - infographic

モデル評価結果

タスク	データセット	精度
分類	imagenet - 1k	87.6%
分類	inaturalist - 18	79.7%
分類	cifar10	99.1%
分類	cifar100	92.5%
分類	food101	96.3%
分類	dtd	88.5%
分類	oxford - pets	96.4%
分類	stanford - cars	96.7%
分類	camelyon17	93.8%
分類	patch - camelyon	89.4%
分類	rxrx1	6.7%
分類	eurosat	98.4%
分類	fmow	62.1%
分類	domainnet - infographic	71.7%

📄 ライセンス

このプロジェクトは、apple - amlrライセンスの下で公開されています。

📖 引用

もし私たちの研究が役に立った場合、以下のように引用していただけると幸いです。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}