A

Aimv2 Large Patch14 Native

appleによって開発
AIMv2はマルチモーダル自己回帰目標で事前学習された視覚モデルシリーズで、多くのマルチモーダル理解ベンチマークで優れた性能を発揮します。
ダウンロード数 788
リリース時間 : 11/21/2024

モデル概要

AIMv2はマルチモーダル自己回帰目標による事前学習を通じて、画像特徴抽出とマルチモーダル理解タスクで卓越した性能を示します。

モデル特徴

卓越したマルチモーダル理解能力
多くのマルチモーダル理解ベンチマークでOpenAI CLIPやSigLIPモデルを上回る
強力な認識性能
AIMv2-3Bバージョンは凍結バックボーン使用時にImageNetで89.5%の精度を達成
オープン語彙理解の優位性
オープン語彙物体検出と指示表現理解タスクでDINOv2を上回る
効率的な事前学習手法
シンプルで直接的なマルチモーダル自己回帰目標による事前学習で、トレーニング規模を効果的に拡張可能

モデル能力

画像特徴抽出
マルチモーダル理解
オープン語彙物体検出
指示表現理解
大規模視覚表現学習

使用事例

コンピュータビジョン
画像分類
事前学習済み特徴を使用した画像分類タスク
ImageNetで89.5%の精度を達成
物体検出
オープン語彙環境下での物体検出
DINOv2モデルを上回る
マルチモーダルアプリケーション
視覚-言語理解
画像とテキストの共同表現学習
CLIPとSigLIPモデルを超越
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase