P

Pvt Medium 224

Xrenyaによって開発
PVTはTransformerベースの視覚モデルで、ピラミッド構造を使用して画像を処理し、ImageNet-1Kで事前学習されており、画像分類タスクに適しています。
ダウンロード数 13
リリース時間 : 3/27/2023

モデル概要

このモデルは畳み込みを必要としない視覚Transformerアーキテクチャで、漸進的なピラミッド構造により計算量を削減し、主に画像分類タスクに使用されます。

モデル特徴

ピラミッド構造設計
漸進的に縮小するピラミッド構造を採用し、大きな特徴マップの計算量を効果的に削減
畳み込みなしアーキテクチャ
完全にTransformerエンコーダーに基づいており、従来の畳み込み操作に依存しない
グローバルコンテキストモデリング
[CLS]トークンを使用して画像のグローバル特徴表現をキャプチャ

モデル能力

画像分類
特徴抽出

使用事例

コンピュータビジョン
汎用画像分類
画像を1000のImageNetカテゴリに分類
ImageNet-1Kデータセットで良好なパフォーマンス
下流タスクの特徴抽出
他の視覚タスクのためのバックボーンネットワークとして特徴を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase