A

Aimv2 Large Patch14 224 Distilled

appleによって開発
AIMv2はマルチモーダル自己回帰目標事前学習による視覚モデルシリーズで、マルチモーダル理解ベンチマークで優れた性能を発揮します。
ダウンロード数 236
リリース時間 : 11/4/2024

モデル概要

AIMv2は効率的な視覚モデルで、マルチモーダル自己回帰目標事前学習を採用し、画像特徴抽出などのタスクに適しており、多くのベンチマークで同類モデルを凌駕しています。

モデル特徴

マルチモーダル事前学習
自己回帰目標を用いたマルチモーダル事前学習により、モデルの理解能力を向上
高性能
CLIP、SigLIP、DINOv2などのモデルを多くのベンチマークで上回る
効率的なスケーリング
事前学習方法がシンプルで直接的であり、大規模化に効率的に対応
高精度
AIMv2-3BはImageNetで89.5%の精度を達成

モデル能力

画像特徴抽出
マルチモーダル理解
オープン語彙物体検出
指示表現理解

使用事例

コンピュータビジョン
画像分類
高精度画像分類タスクに使用
ImageNetで89.5%の精度を達成
物体検出
オープン語彙物体検出
DINOv2モデルを凌駕
マルチモーダル応用
視覚言語理解
画像とテキストの関連性を理解
マルチモーダル理解ベンチマークで優れた性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase