オープンソースのHiera - small - 224 - hfモデル - 画像・ビデオタスクに使用、既存技術を効率的に上回ります！

ホーム

Hiera Small 224 Hf

facebookによって開発

Hieraは階層型ビジョントランスフォーマーモデルで、高速性、強力な機能、ミニマリストな設計を兼ね備え、画像・動画タスクにおいて既存技術を大幅に上回る性能と計算効率を発揮

画像分類

Transformers

英語#階層型ビジョントランスフォーマー #効率的な特徴抽出 #ミニマリストなアーキテクチャ設計

ダウンロード数 23

リリース時間 : 5/12/2024

モデル概要

Hieraは最適化された階層型ビジョントランスフォーマーモデルで、画像分類、特徴抽出、マスク画像モデリングタスク向けに設計されており、特に特徴抽出シナリオに適している

モデル特徴

階層型効率アーキテクチャ

特徴次元と解像度を動的に調整することで、モデルの効率を大幅に向上

ミニマリスト設計

従来のビジョントランスフォーマーから冗長なモジュールを削除し、高性能を維持しながらアーキテクチャを簡素化

MAE自己教師あり学習

MAE自己教師あり学習戦略を採用し、モデル性能を効果的に向上

モデル能力

画像分類

特徴抽出

マスク画像モデリング

使用事例

コンピュータビジョン

画像分類

入力画像を分類識別

ImageNet-1Kなどのベンチマークテストで優れた性能を発揮

特徴抽出

画像の多階層特徴表現を抽出

下流ビジョンタスクの特徴入力として利用可能

🚀 Hieraモデル (Tiny, IN1Kで微調整済み)

Hiera は、高速で強力で、そして何よりも シンプル な 階層型 ビジョントランスフォーマーです。このモデルは論文 Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles で紹介され、幅広い画像およびビデオタスクにおいて最先端のモデルを上回り、しかも はるかに高速 です。

🚀 クイックスタート

仕組み

Hieraのアーキテクチャの図。

ViT のようなビジョントランスフォーマーは、ネットワーク全体で同じ空間解像度と特徴量の数を使用します。しかし、これは非効率的です。初期の層では多くの特徴量を必要とせず、後期の層では高い空間解像度を必要としません。以前の階層型モデルである ResNet は、最初に少ない特徴量を使用し、最後に低い空間解像度を使用することでこの問題に対処しています。

Swin や MViT など、この階層型設計を採用したいくつかのドメイン固有のビジョントランスフォーマーが提案されています。しかし、ImageNet-1K での完全教師付き学習を使用して最先端の結果を得るために、これらのモデルは ViT が持たない空間的バイアスを補うために特殊なモジュールを追加することでますます複雑になっています。これらの変更により、魅力的なFLOP数を持つ効果的なモデルが生成されますが、実際には追加された複雑さにより、これらのモデルは全体的に遅くなります。

私たちは、この多くの複雑さが実際には不要であることを示しています。アーキテクチャの変更によって手動で空間的ベースを追加する代わりに、モデルにこれらのバイアスを 教える ことを選択します。MAE で学習することで、既存のトランスフォーマーの すべての これらの巨大なモジュールを簡素化または削除し、その過程で 精度を向上 させることができます。その結果が Hiera であり、いくつかの画像およびビデオ認識タスクにおいて最先端のモデルを上回る非常に効率的でシンプルなアーキテクチャです。

想定される用途と制限

Hiera は画像分類、特徴抽出、またはマスク画像モデリングに使用できます。このチェックポイントは特に 特徴抽出 を目的としています。

使用例

基本的な使用法

from transformers import AutoImageProcessor, HieraModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-small-224-hf")
model = HieraModel.from_pretrained("facebook/hiera-small-224-hf")

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)

高度な使用法

モデルの異なる段階から特徴マップを抽出することもできます。HieraBackbone を使用し、モデルを読み込むときに out_features を設定します。以下は、すべての段階から特徴マップを抽出する方法です。

from transformers import AutoImageProcessor, HieraBackbone
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-small-224-hf")
# `out_features` は ['stem', 'stage1', 'stage2', 'stage3', 'stage4'] のサブセットである必要があります
# これにより新しいLayerNorm層が導入され、下流のタスクで学習する必要があるかもしれません
model = HieraBackbone.from_pretrained("facebook/hiera-small-224-hf", out_features=['stage1', 'stage2', 'stage3', 'stage4'])

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
feature_maps = outputs.feature_maps

引用情報

Hiera またはこのコードをあなたの研究で使用する場合は、以下を引用してください。

@article{ryali2023hiera,
  title={Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles},
  author={Ryali, Chaitanya and Hu, Yuan-Ting and Bolya, Daniel and Wei, Chen and Fan, Haoqi and Huang, Po-Yao and Aggarwal, Vaibhav and Chowdhury, Arkabandhu and Poursaeed, Omid and Hoffman, Judy and Malik, Jitendra and Li, Yanghao and Feichtenhofer, Christoph},
  journal={ICML},
  year={2023}
}