🚀 画像特徴抽出用VisionモデルAIMv2
AIMv2は、多モーダル自己回帰目的で事前学習されたVisionモデルファミリーで、多くのベンチマークで優れた性能を発揮します。
🚀 クイックスタート
[AIMv2論文
] [BibTeX
]
私たちは、多モーダル自己回帰目的で事前学習されたVisionモデルのAIMv2ファミリーを紹介します。AIMv2の事前学習はシンプルで、効果的にスケールできます。AIMv2の主な特徴は以下の通りです。
- 多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
- オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回る性能を示します。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の高い認識性能を達成します。
✨ 主な機能
属性 |
详情 |
ライブラリ名 |
transformers |
ライセンス |
apple - amlr |
評価指標 |
精度 |
パイプラインタグ |
画像特徴抽出 |
タグ |
ビジョン、画像特徴抽出、mlx、pytorch |
モデル名 |
aimv2 - huge - patch14 - 448 |
各データセットでの精度
データセット名 |
タイプ |
精度 |
検証済み |
imagenet - 1k |
imagenet - 1k |
88.6 |
否 |
inaturalist - 18 |
inaturalist - 18 |
82.8 |
否 |
cifar10 |
cifar10 |
99.4 |
否 |
cifar100 |
cifar100 |
93.6 |
否 |
food101 |
food101 |
97.0 |
否 |
dtd |
dtd |
88.9 |
否 |
oxford - pets |
oxford - pets |
96.8 |
否 |
stanford - cars |
stanford - cars |
96.5 |
否 |
camelyon17 |
camelyon17 |
93.4 |
否 |
patch - camelyon |
patch - camelyon |
89.6 |
否 |
rxrx1 |
rxrx1 |
7.8 |
否 |
eurosat |
eurosat |
98.7 |
否 |
fmow |
fmow |
64.8 |
否 |
domainnet - infographic |
domainnet - infographic |
74.5 |
否 |
💻 使用例
基本的な使用法(PyTorch)
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-448",
)
model = AutoModel.from_pretrained(
"apple/aimv2-huge-patch14-448",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
基本的な使用法(JAX)
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-huge-patch14-448",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📄 ライセンス
このプロジェクトはapple - amlrライセンスの下で提供されています。
📚 引用
もしあなたが私たちの研究が役に立ったと感じた場合は、以下のように引用してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}