A

Aimv2 Huge Patch14 224

appleによって開発
AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くのベンチマークテストで優れた性能を発揮します。
ダウンロード数 54
リリース時間 : 10/29/2024

モデル概要

AIMv2は先進的な視覚モデルで、マルチモーダル自己回帰事前学習手法を採用し、画像分類と特徴抽出タスクで優れた性能を示します。

モデル特徴

マルチモーダル自己回帰事前学習
革新的なマルチモーダル自己回帰目標で事前学習を行い、モデル性能を向上
優れたベンチマーク性能
複数の視覚ベンチマークでCLIP、SigLIP、DINOv2などのモデルを上回る
大規模スケーリング能力
事前学習方法がシンプルで直接的であり、トレーニング規模を効果的に拡張可能

モデル能力

画像分類
画像特徴抽出
マルチモーダル理解
オープン語彙物体検出
指示表現理解

使用事例

コンピュータビジョン
画像分類
ImageNetなどのデータセットで高精度な画像分類を実施
ImageNet-1kで87.5%の精度を達成
細粒度分類
特定ドメインの細粒度画像分類
stanford-carsで96.4%の精度を達成
医療画像分析
医療画像の分類と分析
camelyon17で93.3%の精度を達成
マルチモーダルアプリケーション
オープン語彙物体検出
トレーニングセットで明示的にラベル付けされていない物体を画像から検出
DINOv2を上回る性能
指示表現理解
自然言語の指示表現を理解し、画像内の対応領域を特定
DINOv2を上回る性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase