🚀 トランスフォーマー
このライブラリは、画像特徴抽出に特化したビジョンモデルを提供します。多様なデータセットで高い精度を達成し、多様なタスクに対応できます。
🚀 クイックスタート
[AIMv2論文
] [BibTeX
]
私たちは、マルチモーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的にスケールできます。AIMv2の主な特徴は以下の通りです。
- 大多数のマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回ります。
- オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回ります。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の高い認識性能を発揮します。
✨ 主な機能
- 画像特徴抽出に特化したビジョンモデルを提供。
- 多様なデータセットで高い精度を達成。
- マルチモーダル理解ベンチマークや物体検出などのタスクで優れた性能を発揮。
💻 使用例
基本的な使用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-large-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-large-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-large-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-large-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 ドキュメント
属性 |
详情 |
ライブラリ名 |
transformers |
パイプラインタグ |
画像特徴抽出 |
タグ |
ビジョン、画像特徴抽出、mlx、pytorch |
モデル名 |
aimv2-large-patch14-336 |
評価指標 |
精度 |
データセット |
imagenet - 1k、inaturalist - 18、cifar10、cifar100、food101、dtd、oxford - pets、stanford - cars、camelyon17、patch - camelyon、rxrx1、eurosat、fmow、domainnet - infographic |
モデル評価結果
タスク |
データセット |
精度 |
分類 |
imagenet - 1k |
87.6% |
分類 |
inaturalist - 18 |
79.7% |
分類 |
cifar10 |
99.1% |
分類 |
cifar100 |
92.5% |
分類 |
food101 |
96.3% |
分類 |
dtd |
88.5% |
分類 |
oxford - pets |
96.4% |
分類 |
stanford - cars |
96.7% |
分類 |
camelyon17 |
93.8% |
分類 |
patch - camelyon |
89.4% |
分類 |
rxrx1 |
6.7% |
分類 |
eurosat |
98.4% |
分類 |
fmow |
62.1% |
分類 |
domainnet - infographic |
71.7% |
📄 ライセンス
このプロジェクトは、apple - amlrライセンスの下で公開されています。
📖 引用
もし私たちの研究が役に立った場合、以下のように引用していただけると幸いです。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}