🚀 トランスフォーマーライブラリ
このライブラリは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを提供します。多様なベンチマークで優れた性能を発揮し、画像特徴抽出などのタスクに役立ちます。
🚀 クイックスタート
[AIMv2 Paper
] [BibTeX
]
我々は、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習はシンプルで、効果的にスケールすることができます。AIMv2の主な特徴は以下の通りです。
- 多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回っています。
- オープンボキャブラリ物体検出と参照表現理解で、DINOv2を上回っています。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を示します。
✨ 主な機能
- 多モーダル理解:多くのベンチマークで高い性能を発揮します。
- 物体検出と参照表現理解:DINOv2を上回る性能を持ちます。
- 強力な認識性能:AIMv2 - 3BがImageNetで高い精度を達成します。
💻 使用例
基本的な使用法 (PyTorch)
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-large-patch14-224-distilled",
)
model = AutoModel.from_pretrained(
"apple/aimv2-large-patch14-224-distilled",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
基本的な使用法 (JAX)
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-large-patch14-224-distilled",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-large-patch14-224-distilled",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📄 ライセンス
このライブラリはapple - amlr
ライセンスの下で提供されています。
📚 詳細情報
属性 |
详情 |
モデルタイプ |
多モーダル自己回帰目的で事前学習されたビジョンモデル |
評価指標 |
精度 |
パイプラインタグ |
画像特徴抽出 |
タグ |
ビジョン、画像特徴抽出、mlx、pytorch |
📚 引用
もしあなたが我々の研究が役に立ったと感じた場合、以下のように引用を考慮してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}