A

Aimv2 1B Patch14 448

appleによって開発
AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、複数の視覚理解ベンチマークで優れた性能を発揮します。
ダウンロード数 71
リリース時間 : 10/29/2024

モデル概要

AIMv2は効率的な視覚モデルで、マルチモーダル自己回帰目標による事前学習を行い、画像分類や物体検出などのタスクで優れた性能を示します。

モデル特徴

マルチモーダル自己回帰事前学習
マルチモーダル自己回帰目標を用いた事前学習により、モデルの汎化能力と性能が向上しました。
高性能
複数の視覚理解ベンチマークでCLIPやSigLIPなどのモデルを上回る性能を示します。
効率的なスケーリング
シンプルで直接的な事前学習方法により、大規模モデルへの効率的な拡張が可能です。

モデル能力

画像特徴抽出
画像分類
マルチモーダル理解

使用事例

コンピュータビジョン
画像分類
ImageNet-1kなどのデータセットで画像分類タスクを実行します。
精度89.0%
開放語彙物体検出
開放語彙物体検出タスクでDINOv2を上回る性能を示します。
指示表現理解
指示表現理解タスクでDINOv2を上回る性能を示します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase