H

Hiera Large 224 Hf

facebookによって開発
Hieraは階層型視覚Transformerモデルで、高速で強力かつシンプルな特性を持ち、画像・動画タスクにおいて既存技術を凌駕しつつ高速に動作します。
ダウンロード数 532
リリース時間 : 5/12/2024

モデル概要

Hieraは画像分類、特徴抽出、またはマスク画像モデリング向けに設計された階層型視覚Transformerモデルです。この特定のチェックポイントは特徴抽出向けに設計されています。

モデル特徴

階層型設計
階層構造により、ネットワークの異なる段階で異なる空間解像度と特徴次元を使用することで効率を向上させます。
シンプルなアーキテクチャ
従来の視覚Transformerにおける冗長なモジュールを削除し、アーキテクチャをシンプルかつ効率的に保っています。
効率的なトレーニング
MAEトレーニングにより、複雑なアーキテクチャを手動で追加する代わりに、モデルに空間バイアスを学習させます。
高性能
多くの画像・動画認識タスクで業界最高水準を達成しつつ、より高速に動作します。

モデル能力

画像分類
特徴抽出
マスク画像モデリング

使用事例

コンピュータビジョン
画像分類
標準的な画像分類タスクに使用
ImageNet-1Kなどのベンチマークで優れた性能を発揮
特徴抽出
画像の多層的な特徴表現を抽出
下流の視覚タスクに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase