🚀 画像特徴抽出モデルAIMv2
AIMv2は、多モーダル自己回帰目的で事前学習されたビジョンモデルファミリーです。簡単かつ効果的に学習とスケーリングが可能で、多くのベンチマークで高い性能を発揮します。
🔍 基本情報
属性 |
详情 |
ライブラリ名 |
transformers |
ライセンス |
apple-amlr |
評価指標 |
accuracy |
パイプラインタグ |
image-feature-extraction |
タグ |
vision, image-feature-extraction, mlx, pytorch |
📊 モデル性能
タスク |
データセット |
精度 |
分類 |
imagenet-1k |
87.5% |
分類 |
inaturalist-18 |
77.9% |
分類 |
cifar10 |
99.3% |
分類 |
cifar100 |
93.5% |
分類 |
food101 |
96.3% |
分類 |
dtd |
88.2% |
分類 |
oxford-pets |
96.6% |
分類 |
stanford-cars |
96.4% |
分類 |
camelyon17 |
93.3% |
分類 |
patch-camelyon |
89.3% |
分類 |
rxrx1 |
5.8% |
分類 |
eurosat |
98.5% |
分類 |
fmow |
62.2% |
分類 |
domainnet-infographic |
70.4% |
🚀 クイックスタート
[AIMv2論文
] [BibTeX
]
我々は、多モーダル自己回帰目的で事前学習されたAIMv2ビジョンモデルファミリーを紹介します。AIMv2の事前学習は簡単で、効果的に学習とスケーリングが可能です。AIMv2の主な特徴は以下の通りです。
- 多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
- オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を示します。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。
💻 使用例
基本的な使用法(PyTorch)
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-224",
)
model = AutoModel.from_pretrained(
"apple/aimv2-huge-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
高度な使用法(JAX)
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-huge-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📄 ライセンス
本プロジェクトはapple-amlrライセンスの下で提供されています。
📚 引用
もしあなたが我々の研究が役に立ったと感じたら、以下のように引用していただけると幸いです。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}