aimv2-large-patch14-224-litオープンソースビジュアルモデル - マルチモーダル理解での卓越したパフォーマンスを持つ実用的な選択肢

ホーム

Aimv2 Large Patch14 224 Lit

appleによって開発

AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くのマルチモーダル理解ベンチマークで優れた性能を発揮します。

画像生成テキスト #マルチモーダル自己回帰 #ゼロショット分類 #オープン語彙検出

ダウンロード数 222

リリース時間 : 11/20/2024

モデル概要

AIMv2はマルチモーダル自己回帰目標で事前学習され、画像分類や物体検出などのタスクで強力な性能を示します。

モデル特徴

マルチモーダル自己回帰事前学習

革新的な自己回帰目標を用いた事前学習により、優れたマルチモーダル理解能力を実現

卓越したベンチマーク性能

ほとんどのマルチモーダル理解ベンチマークでOpenAI CLIPとSigLIPモデルを凌駕

強力な認識性能

3Bバージョンは凍結バックボーン使用時にImageNetで89.5%の精度を達成

幅広い応用能力

オープン語彙物体検出や指示表現理解タスクでDINOv2を上回る性能

モデル能力

ゼロショット画像分類

マルチモーダル理解

オープン語彙物体検出

指示表現理解

使用事例

コンピュータビジョン

画像分類

画像内容の分類識別

ImageNetで89.5%の精度

物体検出

画像中の特定物体を検出

DINOv2モデルを上回る性能

マルチモーダル応用

画像テキストマッチング

画像とテキスト記述の関係性を理解

CLIPとSigLIPモデルを超越

🚀 トランスフォーマー

このライブラリは、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを提供します。これらのモデルは、多モーダル理解ベンチマークやオープンボキャブラリ物体検出などのタスクで優れた性能を発揮します。

🚀 クイックスタート

[AIMv2論文] [BibTeX]

我々は、多モーダル自己回帰目的で事前学習されたAIMv2ファミリーのビジョンモデルを紹介します。AIMv2の事前学習は、簡単で直接的で、効果的にスケールすることができます。AIMv2のいくつかの特長は以下の通りです。

大多数の多モーダル理解ベンチマークで、OAI CLIPやSigLIPを上回っています。
オープンボキャブラリ物体検出や参照表現理解において、DINOv2を上回っています。
AIMv2 - 3Bは、凍結されたトランクを使用してImageNetで*89.5%*の強力な認識性能を示しています。

✨ 主な機能

多モーダル自己回帰目的で事前学習されたビジョンモデル。
多様なベンチマークで優れた性能を発揮。
凍結されたトランクを使用しても高い認識性能を維持。

💻 使用例

基本的な使用法

import requests
from PIL import Image
from transformers import AutoProcessor, AutoModel

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
text = ["Picture of a dog.", "Picture of a cat.", "Picture of a horse."]

processor = AutoProcessor.from_pretrained(
    "apple/aimv2-large-patch14-224-lit",
)
model = AutoModel.from_pretrained(
    "apple/aimv2-large-patch14-224-lit",
    trust_remote_code=True,
)

inputs = processor(
    images=image,
    text=text,
    add_special_tokens=True,
    truncation=True,
    padding=True,
    return_tensors="pt",
)
outputs = model(**inputs)
probs = outputs.logits_per_image.softmax(dim=-1)

高度な使用法

JAXに関する使用例は現在構築中です。

📄 ライセンス

このライブラリは、apple - amlrライセンスの下で提供されています。

📚 引用

もしあなたが我々の研究が役に立ったと感じた場合は、以下のように引用していただけると幸いです。

@misc{fini2024multimodalautoregressivepretraininglarge,
  author      = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
  url         = {https://arxiv.org/abs/2411.14402},
  eprint      = {2411.14402},
  eprintclass = {cs.CV},
  eprinttype  = {arXiv},
  title       = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
  year        = {2024},
}