🚀 transformers
このライブラリは、画像特徴抽出に特化したVisionモデルAIMv2を提供しています。AIMv2は、多様なベンチマークで高い性能を発揮し、画像認識タスクにおいて優れた精度を達成しています。
🚀 クイックスタート
このライブラリでは、AIMv2モデルを使用して画像特徴抽出を行うことができます。以下のセクションでは、PyTorchとJAXでの使用例を紹介します。
✨ 主な機能
- 多様なベンチマークで、OAI CLIP、SigLIP、DINOv2を上回る性能を発揮。
- AIMv2-3Bは、ImageNetで*89.5%*の精度を達成(凍結トランク使用時)。
- オープンボキャブラリオブジェクト検出や参照表現理解で優れた性能を示す。
📦 インストール
原READMEにインストール手順が記載されていないため、このセクションは省略されました。
💻 使用例
基本的な使用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-224",
)
model = AutoModel.from_pretrained(
"apple/aimv2-3B-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-3B-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 ドキュメント
モデル情報
属性 |
詳情 |
モデルタイプ |
image-feature-extraction |
評価指標 |
accuracy |
モデル性能
タスク |
データセット |
精度 |
分類 |
imagenet-1k |
88.5% |
分類 |
inaturalist-18 |
81.5% |
分類 |
cifar10 |
99.5% |
分類 |
cifar100 |
94.3% |
分類 |
food101 |
96.8% |
分類 |
dtd |
88.9% |
分類 |
oxford-pets |
97.1% |
分類 |
stanford-cars |
96.5% |
分類 |
camelyon17 |
93.5% |
分類 |
patch-camelyon |
89.4% |
分類 |
rxrx1 |
7.3% |
分類 |
eurosat |
99.0% |
分類 |
fmow |
64.2% |
分類 |
domainnet-infographic |
72.2% |
参考論文
[AIMv2 Paper
] [BibTeX
]
🔧 技術詳細
原READMEに技術詳細が記載されていないため、このセクションは省略されました。
📄 ライセンス
このライブラリは、apple-amlrライセンスの下で提供されています。
📖 引用
もしあなたがこの研究を利用する場合は、以下のように引用してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}