H

Hiera Base Plus 224 Hf

由facebook開發
Hiera是一種分層式視覺Transformer模型,兼具快速、強大且簡潔的特性,在廣泛圖像視頻任務中超越現有技術水平同時顯著提升運行速度。
下載量 15
發布時間 : 5/12/2024

模型概述

Hiera是一種高效的層次化視覺Transformer模型,專為圖像分類、特徵提取和掩碼圖像建模設計。通過簡化冗餘模塊並採用MAE訓練,實現了在多項圖像視頻識別任務中的高性能表現。

模型特點

高效層次化設計
通過分層結構在不同階段調整空間分辨率和特徵數量,顯著提升運行效率。
簡化架構
移除了現有Transformer中的冗餘模塊,保持簡潔架構的同時提升準確率。
MAE訓練
採用掩碼自編碼(MAE)訓練方法,教導模型學習空間偏置,而非通過架構手動添加。
高性能
在多項圖像視頻識別任務中超越現有技術水平,同時保持快速推理速度。

模型能力

圖像分類
特徵提取
掩碼圖像建模

使用案例

計算機視覺
圖像分類
對輸入圖像進行分類,識別圖像中的主要對象或場景。
在ImageNet-1K等基準測試中表現優異
特徵提取
提取圖像的多層次特徵表示,可用於下游視覺任務。
可提取不同階段的特徵圖,支持多種視覺應用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase