Hieraオープンソースビジュアルモデル-高速、強力かつシンプルで、画像とビデオタスクの実行速度を向上させる

ホーム

Hiera Base 224 In1k Hf

facebookによって開発

Hieraは階層型ビジョントランスフォーマーモデルで、高速かつ強力でシンプルな特徴を持ち、幅広い画像・動画タスクで既存技術を凌駕する性能を発揮しながら、処理速度も大幅に向上させています。

画像分類

Transformers

英語#階層型ビジョントランスフォーマー #効率的な画像分類 #MAE事前学習

ダウンロード数 188

リリース時間 : 5/12/2024

モデル概要

Hieraは複雑な設計を必要としない階層型ビジョントランスフォーマーで、画像分類タスク向けに最適化されており、シンプルなアーキテクチャとMAE学習手法により高い効率性を実現しています。

モデル特徴

効率的な階層設計

階層構造を採用し、初期層では特徴量を削減、後期層では空間解像度を低下させることで、処理効率を大幅に向上させています。

シンプルなアーキテクチャ

従来のビジョントランスフォーマーから冗長なモジュールを排除し、MAE学習を通じて空間バイアスを学習させることで、アーキテクチャの簡潔さを保っています。

高性能

多数の画像・動画認識タスクにおいて技術的ブレークスルーを達成し、既存技術を上回る精度を実現しています。

モデル能力

画像分類

特徴抽出

マスク画像モデリング

使用事例

コンピュータビジョン

画像分類

入力画像を分類・識別する

出力例：'トラネコ'

🚀 Hieraモデル (Tiny, IN1Kでファインチューニング済み)

Hieraは、高速で強力、そして何よりも_シンプル_な_階層型_ビジョントランスフォーマーです。このモデルは論文Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistlesで紹介され、幅広い画像およびビデオタスクにおいて最先端のモデルを上回り、しかも_はるかに高速_です。

🚀 クイックスタート

仕組み

Hieraのアーキテクチャの図。

ViTのようなビジョントランスフォーマーは、ネットワーク全体で同じ空間解像度と特徴量の数を使用します。しかし、これは非効率的です。初期の層ではそれほど多くの特徴量を必要とせず、後期の層ではそれほど高い空間解像度を必要としません。ResNetのような従来の階層型モデルは、最初に少ない特徴量を使用し、最後に低い空間解像度を使用することでこの問題に対応しています。

SwinやMViTなど、この階層的な設計を採用したいくつかのドメイン固有のビジョントランスフォーマーが導入されています。しかし、ImageNet-1Kでの完全教師付き学習を使用して最先端の結果を追求する過程で、これらのモデルはViTが持たない空間的バイアスを補うために特殊なモジュールを追加することでますます複雑になっています。これらの変更は魅力的なFLOP数を持つ効果的なモデルを生み出しますが、実際には追加された複雑さにより、これらのモデルは全体として_低速_になっています。

私たちは、この多くの複雑さが実際には_不要_であることを示しています。アーキテクチャの変更によって手動で空間基底を追加する代わりに、モデルにこれらのバイアスを_教える_ことを選択します。MAEを用いた学習により、既存のトランスフォーマーにおける_すべて_の肥大化したモジュールを簡素化または削除し、その過程で_精度を向上_させることができます。その結果がHieraであり、いくつかの画像およびビデオ認識タスクにおいて最先端の性能を発揮する非常に効率的でシンプルなアーキテクチャです。

想定される用途と制限

Hieraは画像分類、特徴抽出、またはマスクされた画像モデリングに使用できます。このチェックポイントは特に画像分類を目的としています。

使い方

import requests

import torch
from PIL import Image
from transformers import AutoImageProcessor, AutoModelForImageClassification 

model_id = "facebook/hiera-base-224-in1k-hf"
device = "cuda" if torch.cuda.is_available() else "cpu"

image_processor = AutoImageProcessor.from_pretrained(model_id)
model = AutoModelForImageClassification.from_pretrained(model_id).to(device)

image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)

inputs = image_processor(images=image, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)

predicted_id = outputs.logits.argmax(dim=-1).item()
predicted_class = model.config.id2label[predicted_id] # 'tabby, tabby cat'

BibTeXエントリと引用情報

Hieraまたはこのコードをあなたの研究で使用する場合は、以下を引用してください。

@article{ryali2023hiera,
  title={Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles},
  author={Ryali, Chaitanya and Hu, Yuan-Ting and Bolya, Daniel and Wei, Chen and Fan, Haoqi and Huang, Po-Yao and Aggarwal, Vaibhav and Chowdhury, Arkabandhu and Poursaeed, Omid and Hoffman, Judy and Malik, Jitendra and Li, Yanghao and Feichtenhofer, Christoph},
  journal={ICML},
  year={2023}
}

## 📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。

## 📦 データセット情報
| Property | Details |
|----------|---------|
| データセット | imagenet-1k |
| ライブラリ名 | transformers |
| パイプラインタグ | image-classification |