🚀 transformers
このライブラリは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを提供します。AIMv2は、多くのベンチマークで優れた性能を発揮し、画像認識やオブジェクト検出などのタスクに適しています。
🚀 クイックスタート
[AIMv2論文
] [BibTeX
]
私たちは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は簡単で、効果的にスケールできます。AIMv2の主な特徴は以下の通りです。
- 多くの多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回る性能を発揮します。
- オープンボキャブラリオブジェクト検出や参照表現理解で、DINOv2を上回る性能を発揮します。
- AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の認識性能を達成します。
✨ 主な機能
- 多モーダル自己回帰目的で事前学習されたビジョンモデル
- 多くのベンチマークで優れた性能を発揮
- PyTorchとJAXでの使用が可能
📦 インストール
このドキュメントには具体的なインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
基本的な使用法
PyTorch
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-3B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
JAX
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-3B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
📚 ドキュメント
このドキュメントには、各モデルの詳細な説明やパラメータの設定方法などの詳細情報が記載されていないため、このセクションを省略します。
🔧 技術詳細
このドキュメントには、具体的な技術的な詳細が記載されていないため、このセクションを省略します。
📄 ライセンス
このライブラリは、apple - amlr
ライセンスの下で提供されています。
📄 引用
もしあなたが私たちの研究が役に立ったと感じた場合は、以下のように引用してください。
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}