V

Vit Hybrid Base Bit 384

googleによって開発
ハイブリッドビジョントランスフォーマー(ViT)モデルは、畳み込みネットワークとTransformerアーキテクチャを組み合わせたもので、画像分類タスクにおいてImageNetで優れた性能を発揮します。
ダウンロード数 992.28k
リリース時間 : 12/6/2022

モデル概要

このモデルはビジョントランスフォーマー(ViT)のハイブリッドバージョンで、畳み込みバックボーンネットワーク(BiT)の特徴をTransformerの初期トークンとして利用することで、効率的な画像分類を実現しています。

モデル特徴

畳み込みとTransformerの利点を結合
畳み込みバックボーンネットワークで特徴を抽出し、それをTransformerエンコーダーに入力することで、局所的な特徴抽出とグローバルな関係モデリングの両方の能力を兼ね備えています。
効率的なトレーニング
純粋な畳み込みネットワークと比べて、トレーニングに必要な計算リソースが大幅に削減されながら、優れた性能を維持しています。
高解像度サポート
384x384解像度の入力をサポートし、高解像度での微調整により最良の結果を得ることができます。

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
ImageNet画像分類
画像を1000のImageNetカテゴリのいずれかに分類します。
ImageNetベンチマークで優れた性能を示しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase