Hiera-huge-224-hf開源視覺模型 - 高效處理圖像視頻，運行速度超快！

首頁

Hiera Huge 224 Hf

由facebook開發

Hiera是一種高效的分層視覺Transformer模型，在圖像和視頻任務中表現優異且運行速度快

圖像分類

Transformers

英語#分層視覺Transformer #高效特徵提取 #圖像分類優化

下載量 41

發布時間 : 5/12/2024

模型概述

Hiera是一種分層的視覺Transformer模型，設計簡潔高效，通過MAE訓練方法簡化了傳統視覺Transformer的冗餘模塊，在多項圖像視頻識別任務中超越現有技術

模型特點

分層設計

採用分層架構，早期層減少特徵數量，深層網絡降低空間分辨率，提高效率

簡潔架構

通過MAE訓練方法簡化或移除了傳統Transformer中的冗餘模塊，保持高效

高性能

在多項圖像和視頻識別任務中超越現有技術，同時運行速度顯著提升

模型能力

圖像分類

特徵提取

掩碼圖像建模

使用案例

計算機視覺

圖像分類

對圖像內容進行分類識別

在ImageNet-1K等基準測試中表現優異

特徵提取

從圖像中提取多層次的特徵表示

可用於下游視覺任務的遷移學習

🚀 Hiera模型（Tiny，在IN1K上微調）

Hiera 是一種分層視覺變換器，它快速、強大，最重要的是簡單。該模型在論文 Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles 中被提出，在眾多圖像和視頻任務中超越了當前的先進水平，同時速度更快。

✨ 主要特性

工作原理

Hiera架構圖

像 ViT 這樣的視覺變換器在整個網絡中使用相同的空間分辨率和特徵數量。但這是低效的：早期層不需要那麼多特徵，而後期層不需要那麼高的空間分辨率。像 ResNet 這樣的早期分層模型通過在開始時使用較少的特徵和在結尾時使用較低的空間分辨率來解決這個問題。

已經有一些採用這種分層設計的特定領域視覺變換器被提出，如 Swin 或 MViT。但在 ImageNet - 1K 上使用全監督訓練追求最先進結果的過程中，這些模型變得越來越複雜，因為它們添加了專門的模塊來彌補 ViT 缺乏的空間偏差。雖然這些更改產生了具有吸引人的浮點運算次數的有效模型，但在底層，增加的複雜性使這些模型總體上更慢。

我們表明，很多這種複雜性實際上是 不必要的。我們沒有通過架構更改手動添加空間基礎，而是選擇教導模型這些偏差。通過使用 MAE 進行訓練，我們可以簡化或移除現有變換器中所有這些龐大的模塊，並在此過程中 提高準確性。結果就是 Hiera，這是一種極其高效且簡單的架構，在多個圖像和視頻識別任務中超越了當前的先進水平。

預期用途與限制

Hiera 可用於圖像分類、特徵提取或掩碼圖像建模。此特定檢查點旨在用於 特徵提取。

📦 安裝指南

文檔未提及安裝步驟，若有需要請參考 transformers 庫的官方安裝說明。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, HieraModel
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-huge-224-hf")
model = HieraModel.from_pretrained("facebook/hiera-huge-224-hf")

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)

高級用法

你還可以使用 HieraBackbone 並在加載模型時設置 out_features 從模型的不同階段提取特徵圖。以下是如何從每個階段提取特徵圖的示例：

from transformers import AutoImageProcessor, HieraBackbone
import torch
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

image_processor = AutoImageProcessor.from_pretrained("facebook/hiera-huge-224-hf")
# `out_features` 應該是 ['stem', 'stage1', 'stage2', 'stage3', 'stage4'] 的子集
# 這會引入新的 LayerNorm 層，可能需要在下游任務上進行訓練
model = HieraBackbone.from_pretrained("facebook/hiera-huge-224-hf", out_features=['stage1', 'stage2', 'stage3', 'stage4'])

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)
feature_maps = outputs.feature_maps

📚 詳細文檔

BibTeX引用和引用信息

如果你在工作中使用了 Hiera 或此代碼，請引用：

@article{ryali2023hiera,
  title={Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles},
  author={Ryali, Chaitanya and Hu, Yuan-Ting and Bolya, Daniel and Wei, Chen and Fan, Haoqi and Huang, Po-Yao and Aggarwal, Vaibhav and Chowdhury, Arkabandhu and Poursaeed, Omid and Hoffman, Judy and Malik, Jitendra and Li, Yanghao and Feichtenhofer, Christoph},
  journal={ICML},
  year={2023}
}