aimv2-1B-patch14-224オープンソースビジュアルモデル - マルチモーダル事前学習がビジュアルタスク処理をサポート

Aimv2 1B Patch14 224

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くの視覚タスクで優れた性能を発揮します。

ダウンロード数 299

リリース時間 : 10/29/2024

モデル概要

AIMv2はマルチモーダル自己回帰目標で事前学習された大規模視覚エンコーダーで、主に画像特徴抽出と分類タスクに使用されます。このモデルは多くのベンチマークテストで優れた性能を示し、特に開放語彙オブジェクト検出と指示表現理解タスクで同類モデルを上回ります。

モデル特徴

マルチモーダル自己回帰事前学習

革新的なマルチモーダル自己回帰目標で事前学習を行い、モデル性能を効果的に向上

卓越した分類性能

ImageNet-1kなどの分類タスクで88%以上の精度を達成

クロスタスク汎化能力

開放語彙オブジェクト検出と指示表現理解タスクでDINOv2を上回る

モデル能力

画像特徴抽出

画像分類

マルチモーダル理解

開放語彙オブジェクト検出

指示表現理解

使用事例

コンピュータビジョン

汎用画像分類

ImageNetなどの標準画像分類タスクに使用

ImageNet-1k精度88.1%

細粒度分類

スタンフォード自動車データセットなどの細粒度画像分類に使用

スタンフォード自動車データセット精度96.5%

医療画像分析

Camelyon17データセットなどの医療画像分類に使用

Camelyon17精度94.2%

リモートセンシング画像処理

衛星画像分類

EuroSATなどの衛星画像分類タスクに使用

EuroSAT精度98.8%

🚀 トランスフォーマー

このライブラリは、画像特徴抽出に特化したビジョンモデルであり、多モーダル自己回帰目的で事前学習されたAIMv2ファミリを提供します。多くのベンチマークで優れた性能を発揮します。

🚀 クイックスタート

このセクションでは、transformersライブラリを使用してAIMv2モデルを利用する基本的な手順を説明します。

✨ 主な機能

多くのマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を示します。
AIMv2-3Bは、凍結されたトランクを使用してImageNetで89.5%の認識率を達成します。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

PyTorch

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-224",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

JAX

import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "apple/aimv2-1B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
    "apple/aimv2-1B-patch14-224",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)

📚 ドキュメント

[AIMv2論文] [BibTeX]

多モーダル自己回帰目的で事前学習されたAIMv2ファミリのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的にスケールできます。

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。

📄 ライセンス

このライブラリはapple-amlrライセンスの下で提供されています。

📄 引用

もしこの研究が役に立った場合は、以下のように引用してください。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}

属性	详情
モデルタイプ	transformers
評価指標	accuracy
パイプラインタグ	image-feature-extraction
タグ	vision、image-feature-extraction、mlx、pytorch