aimv2-1B-patch14-336オープンソースビジュアルモデル - 多モーダル理解能力が高く、テストで優れた成績を残す

ホーム

Aimv2 1B Patch14 336

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、複数のマルチモーダル理解ベンチマークで優れた性能を発揮します。

画像分類 #マルチモーダル自己回帰事前学習 #高精度画像分類 #オープン語彙物体検出

ダウンロード数 52

リリース時間 : 10/29/2024

モデル概要

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルで、強力な画像特徴抽出と分類能力を備えています。

モデル特徴

マルチモーダル自己回帰事前学習

マルチモーダル自己回帰目標で事前学習を行い、マルチモーダル理解タスクでのモデル性能を向上させます。

高性能

複数のベンチマークテストでOAI CLIPやSigLIPを上回り、強力な認識性能を発揮します。

幅広い適用性

ImageNet、CIFAR、Food101など様々なデータセットで優れた性能を示します。

モデル能力

画像特徴抽出

画像分類

マルチモーダル理解

使用事例

コンピュータビジョン

画像分類

画像を分類し、様々なデータセットに適用可能です。

ImageNet-1kで88.7%の精度を達成。

物体検出

オープン語彙物体検出タスクで優れた性能を発揮します。

DINOv2モデルを上回ります。

医療画像

病理画像分析

医療画像データの分析に使用されます。

Camelyon17データセットで94.2%の精度を達成。

🚀 transformers

このプロジェクトでは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを導入しています。AIMv2の事前学習は簡単で、効果的にトレーニングとスケーリングが可能です。

🚀 クイックスタート

[AIMv2論文] [BibTeX]

我々は、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的にトレーニングとスケーリングが可能です。AIMv2のいくつかの特長は以下の通りです：

多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回っています。
オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回っています。
AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成しています。

✨ 主な機能

多モーダル理解ベンチマークでの高い性能
オープンボキャブラリ物体検出と参照表現理解での優れた性能
凍結されたトランクを使用した高い認識性能

💻 使用例

基本的な使用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-336",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-336",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 ドキュメント

プロパティ	詳細
ライブラリ名	transformers
ライセンス	apple - amlr
評価指標	accuracy
パイプラインタグ	image - feature - extraction
タグ	vision、image - feature - extraction、mlx、pytorch

モデル情報

モデル名: aimv2 - 1B - patch14 - 336
結果:
- タスク: 分類
- データセット: imagenet - 1k、inaturalist - 18、cifar10、cifar100、food101、dtd、oxford - pets、stanford - cars、camelyon17、patch - camelyon、rxrx1、eurosat、fmow、domainnet - infographic
- 評価指標: accuracy

📄 ライセンス

このプロジェクトはapple - amlrライセンスの下で提供されています。

📚 引用

もしあなたが我々の研究が役に立ったと感じたら、以下のように引用してください：

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}