🚀 トランスフォーマーモデル
このプロジェクトは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを提供します。AIMv2は、多くのベンチマークで優れた性能を発揮し、効果的なトレーニングとスケーリングが可能です。
🚀 クイックスタート
このモデルは、画像特徴抽出に使用できます。以下のセクションでは、PyTorchとJAXでの使用方法を説明します。
✨ 主な機能
- 多くのマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
- オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を示します。
- AIMv2-3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。
💻 使用例
基本的な使用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-huge-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-huge-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-huge-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 ドキュメント
[AIMv2 Paper
] [BibTeX
]
このモデルは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルです。AIMv2の事前学習は、簡単かつ効果的にトレーニングとスケーリングが可能です。
📄 ライセンス
このプロジェクトは、apple-amlrライセンスの下で提供されています。
📊 メトリクス
データセット |
タスク |
精度 |
imagenet-1k |
分類 |
88.2% |
inaturalist-18 |
分類 |
81.0% |
cifar10 |
分類 |
99.3% |
cifar100 |
分類 |
93.6% |
food101 |
分類 |
96.6% |
dtd |
分類 |
88.8% |
oxford-pets |
分類 |
96.8% |
stanford-cars |
分類 |
96.4% |
camelyon17 |
分類 |
93.3% |
patch-camelyon |
分類 |
89.4% |
rxrx1 |
分類 |
7.2% |
eurosat |
分類 |
98.7% |
fmow |
分類 |
63.9% |
domainnet-infographic |
分類 |
73.4% |
📄 引用
もしこの研究が役に立った場合は、以下のように引用してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}