🚀 transformers
このプロジェクトでは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを導入しています。AIMv2の事前学習は簡単で、効果的にトレーニングとスケーリングが可能です。
🚀 クイックスタート
[AIMv2論文
] [BibTeX
]
我々は、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的にトレーニングとスケーリングが可能です。AIMv2のいくつかの特長は以下の通りです:
- 多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回っています。
- オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回っています。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成しています。
✨ 主な機能
- 多モーダル理解ベンチマークでの高い性能
- オープンボキャブラリ物体検出と参照表現理解での優れた性能
- 凍結されたトランクを使用した高い認識性能
💻 使用例
基本的な使用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-1B-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-1B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-1B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-1B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 ドキュメント
プロパティ |
詳細 |
ライブラリ名 |
transformers |
ライセンス |
apple - amlr |
評価指標 |
accuracy |
パイプラインタグ |
image - feature - extraction |
タグ |
vision、image - feature - extraction、mlx、pytorch |
モデル情報
- モデル名: aimv2 - 1B - patch14 - 336
- 結果:
- タスク: 分類
- データセット: imagenet - 1k、inaturalist - 18、cifar10、cifar100、food101、dtd、oxford - pets、stanford - cars、camelyon17、patch - camelyon、rxrx1、eurosat、fmow、domainnet - infographic
- 評価指標: accuracy
📄 ライセンス
このプロジェクトはapple - amlrライセンスの下で提供されています。
📚 引用
もしあなたが我々の研究が役に立ったと感じたら、以下のように引用してください:
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}