🚀 Hieraモデル (Tiny, IN1Kでファインチューニング済み)
Hieraは、高速で強力で、そして何より シンプル な 階層型 ビジョントランスフォーマーです。このモデルは論文 Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles で紹介され、幅広い画像およびビデオタスクにおいて最先端のモデルを上回り、しかも はるかに高速 です。
🚀 クイックスタート
仕組み

ViT のようなビジョントランスフォーマーは、ネットワーク全体で同じ空間解像度と特徴量の数を使用します。しかし、これは非効率的です。初期の層ではそれほど多くの特徴量を必要とせず、後期の層ではそれほど高い空間解像度を必要としません。ResNet のような従来の階層型モデルは、最初に少ない特徴量を使用し、最後に低い空間解像度を使用することでこの問題に対処しています。
Swin や MViT など、この階層型設計を採用したいくつかのドメイン固有のビジョントランスフォーマーが提案されています。しかし、ImageNet-1K での完全教師付き学習を使用して最先端の結果を追求する過程で、これらのモデルは ViT が持たない空間的バイアスを補うために特殊なモジュールを追加することでますます複雑になっています。これらの変更により、魅力的なFLOP数を持つ効果的なモデルが生成されますが、実際には追加された複雑さにより、これらのモデルは全体として 低速 になっています。
私たちは、この多くの複雑さが実際には 不要 であることを示しています。アーキテクチャの変更を通じて手動で空間基底を追加する代わりに、モデルにこれらのバイアスを 教える ことを選択します。MAE で学習することで、既存のトランスフォーマーにある すべての 巨大なモジュールを簡素化または削除し、その過程で 精度を向上 させることができます。その結果が Hiera であり、いくつかの画像およびビデオ認識タスクにおいて最先端のモデルを上回る非常に効率的でシンプルなアーキテクチャです。
✨ 主な機能
使用目的と制限事項
Hieraは、画像分類、特徴抽出、またはマスク画像モデリングに使用できます。このチェックポイントは具体的には 特徴抽出 を目的としています。
📦 インストール
使用方法
from transformers import AutoImageProcessor, HieraModel
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-large-224-hf")
model = HieraModel.from_pretrained("facebook/hiera-large-224-hf")
inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
また、HieraBackbone
を使用し、モデルをロードする際に out_features
を設定することで、モデルの異なる段階から特徴マップを抽出することもできます。以下は、すべての段階から特徴マップを抽出する方法です。
from transformers import AutoImageProcessor, HieraBackbone
import torch
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-large-224-hf")
model = HieraBackbone.from_pretrained("facebook/hiera-large-224-hf", out_features=['stage1', 'stage2', 'stage3', 'stage4'])
inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
feature_maps = outputs.feature_maps
BibTeXエントリと引用情報
もしあなたの研究で Hiera またはこのコードを使用した場合、以下のように引用してください。
@article{ryali2023hiera,
title={Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles},
author={Ryali, Chaitanya and Hu, Yuan-Ting and Bolya, Daniel and Wei, Chen and Fan, Haoqi and Huang, Po-Yao and Aggarwal, Vaibhav and Chowdhury, Arkabandhu and Poursaeed, Omid and Hoffman, Judy and Malik, Jitendra and Li, Yanghao and Feichtenhofer, Christoph},
journal={ICML},
year={2023}
}
📄 ライセンス
属性 |
详情 |
データセット |
imagenet-1k |
言語 |
en |
ライブラリ名 |
transformers |
ライセンス |
cc-by-nc-4.0 |