🚀 トランスフォーマーライブラリ
このライブラリは、画像特徴抽出に特化したビジョンモデルAIMv2を提供しています。AIMv2は、マルチモーダル自己回帰目的で事前学習されたモデルで、多くのベンチマークで優れた性能を発揮します。
🚀 クイックスタート
このセクションでは、AIMv2モデルの基本的な使い方を紹介します。
✨ 主な機能
- 多くのマルチモーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
- オープンボキャブラリ物体検出や参照表現理解で、DINOv2を上回る性能を発揮します。
- AIMv2-3Bは、凍結されたトランクを使用してImageNetで89.5%の認識率を達成します。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-large-patch14-224",
)
model = AutoModel.from_pretrained(
"apple/aimv2-large-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-large-patch14-224",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-large-patch14-224",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 詳細ドキュメント
モデル情報
属性 |
詳情 |
ライブラリ名 |
transformers |
パイプラインタグ |
画像特徴抽出 |
タグ |
ビジョン、画像特徴抽出、mlx、pytorch |
モデル名 |
aimv2-large-patch14-224 |
メトリクス
データセット名 |
タスク |
精度 |
検証済み |
imagenet-1k |
分類 |
86.6 |
否 |
inaturalist-18 |
分類 |
76.0 |
否 |
cifar10 |
分類 |
99.1 |
否 |
cifar100 |
分類 |
92.2 |
否 |
food101 |
分類 |
95.7 |
否 |
dtd |
分類 |
87.9 |
否 |
oxford-pets |
分類 |
96.3 |
否 |
stanford-cars |
分類 |
96.3 |
否 |
camelyon17 |
分類 |
93.7 |
否 |
patch-camelyon |
分類 |
89.3 |
否 |
rxrx1 |
分類 |
5.6 |
否 |
eurosat |
分類 |
98.4 |
否 |
fmow |
分類 |
60.7 |
否 |
domainnet-infographic |
分類 |
69.0 |
否 |
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションをスキップします。
📄 ライセンス
このプロジェクトは、apple-amlrライセンスの下で提供されています。
引用
もしこの研究が役に立った場合は、以下のように引用してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}