🚀 トランスフォーマーライブラリ
このライブラリは、画像特徴抽出に特化したビジョンモデルを提供します。マルチモーダル自己回帰目的で事前学習されたAIMv2ファミリーのモデルを含み、多くのベンチマークで優れた性能を発揮します。
🚀 クイックスタート
このライブラリを使用することで、画像特徴抽出を簡単に行うことができます。以下に使用例を示します。
💻 使用例
基本的な使用法(PyTorch)
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-1B-patch14-448",
)
model = AutoModel.from_pretrained(
"apple/aimv2-1B-patch14-448",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
基本的な使用法(JAX)
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-1B-patch14-448",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-1B-patch14-448",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 ドキュメント
[AIMv2 Paper
] [BibTeX
]
我々は、マルチモーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的に拡張できます。AIMv2の主な特長は以下の通りです。
- 大多数のマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
- オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を発揮します。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。
モデル情報
属性 |
详情 |
モデルタイプ |
画像特徴抽出 |
トレーニングデータ |
複数のデータセット(imagenet - 1k、inaturalist - 18、cifar10など) |
評価指標 |
正解率(accuracy) |
モデル性能
タスク |
データセット |
正解率 |
分類 |
imagenet - 1k |
89.0% |
分類 |
inaturalist - 18 |
83.8% |
分類 |
cifar10 |
99.4% |
分類 |
cifar100 |
94.1% |
分類 |
food101 |
97.2% |
分類 |
dtd |
88.9% |
分類 |
oxford - pets |
97.1% |
分類 |
stanford - cars |
96.6% |
分類 |
camelyon17 |
93.5% |
分類 |
patch - camelyon |
89.9% |
分類 |
rxrx1 |
9.2% |
分類 |
eurosat |
99.1% |
分類 |
fmow |
65.9% |
分類 |
domainnet - infographic |
74.4% |
📄 ライセンス
このライブラリは、apple - amlrライセンスの下で提供されています。
📖 引用
もしこの研究が役に立った場合は、以下のように引用してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}