AIMv2-Large-Patch14-Nativeオープンソース画像分類モデル - 無料で利用可能、画像カテゴリを高精度に識別

Aimv2 Large Patch14 Native Image Classification

amaye15によって開発

AIMv2-Large-Patch14-Native は、元のAIMv2モデルを修正した画像分類モデルで、Hugging Face TransformersのAutoModelForImageClassificationクラスと互換性があります。

画像分類

Transformers

オープンソースライセンス:MIT #マルチモーダル事前学習 #オープン語彙分類 #高精度視覚認識

ダウンロード数 15

リリース時間 : 11/25/2024

モデル概要

このモデルは、元のAIMv2モデルの修正版で、Hugging Face TransformersのAutoModelForImageClassificationクラスと互換性があり、画像分類タスクに使用できます。

モデル特徴

マルチモーダル自己回帰事前学習

AIMv2モデルは、マルチモーダル自己回帰目標で事前学習され、様々なベンチマークで優れた性能を発揮します。

Hugging Face Transformers互換

修正後、このモデルはAutoModelForImageClassificationと直接連携でき、既存のワークフローに簡単に統合できます。

高性能

AIMv2シリーズは、ほとんどのマルチモーダル理解ベンチマークでOAI CLIPとSigLIPを上回り、オープン語彙物体検出と指示表現理解タスクでDINOv2より優れています。

モデル能力

画像分類

視覚理解

使用事例

コンピュータビジョン

汎用画像分類

入力画像を分類し、主要なオブジェクトやシーンを識別します。

🚀 AIMv2-Large-Patch14-Native 画像分類

このリポジトリには、元のAIMv2モデルをHugging Face TransformersのAutoModelForImageClassificationクラスと互換性を持つように改変したバージョンが含まれています。この改変により、画像分類タスクでこのモデルをシームレスに使用することが可能になります。

このモデルは学習/微調整されていません

元のAIMv2論文 | BibTeX

🚀 クイックスタート

私たちは、元のapple/aimv2-large-patch14-nativeモデルをAutoModelForImageClassificationと互換性を持つように適応させました。AIMv2ファミリーは、マルチモーダル自己回帰目的で事前学習されたビジョンモデルで構成されており、さまざまなベンチマークで堅牢なパフォーマンスを発揮します。

AIMv2モデルのいくつかのハイライトは以下の通りです：

大多数のマルチモーダル理解ベンチマークで、OAI CLIPおよびSigLIPを上回っています。
オープンボキャブラリ物体検出と参照表現理解において、DINOv2を上回っています。
強力な認識性能を示し、AIMv2 - 3Bは**凍結されたトランクを使用してImageNetで89.5%**を達成しています。

✨ 主な機能

元のAIMv2モデルをAutoModelForImageClassificationと互換性を持つように改変。
画像分類タスクでのシームレスな使用を可能に。
マルチモーダル理解ベンチマークや物体検出などで優れた性能を発揮。

💻 使用例

基本的な使用法

import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForImageClassification

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained(
    "amaye15/aimv2-large-patch14-native-image-classification",
)
model = AutoModelForImageClassification.from_pretrained(
    "amaye15/aimv2-large-patch14-native-image-classification",
    trust_remote_code=True,
)

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

# Get predicted class
predictions = outputs.logits.softmax(dim=-1)
predicted_class = predictions.argmax(-1).item()

print(f"Predicted class: {model.config.id2label[predicted_class]}")

📚 ドキュメント

モデル詳細

属性	详情
モデル名	`amaye15/aimv2-large-patch14-native-image-classification`
元のモデル	`apple/aimv2-large-patch14-native`
改変内容	`AutoModelForImageClassification`と互換性を持つように改変され、画像分類タスクで直接使用可能。
フレームワーク	PyTorch

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 引用

このモデルを使用した場合、または役に立ったと感じた場合は、元のAIMv2論文を引用することを検討してください。

@article{yang2023aimv2,
  title={AIMv2: Advances in Multimodal Vision Models},
  author={Yang, Li and others},
  journal={arXiv preprint arXiv:2411.14402},
  year={2023}
}