C

Cvt 13 384 22k

microsoftによって開発
CvT-13は畳み込みとTransformerを組み合わせた視覚モデルで、ImageNet-22kで事前学習され、ImageNet-1kで微調整され、画像分類タスクに適しています。
ダウンロード数 508
リリース時間 : 4/4/2022

モデル概要

このモデルは畳み込み操作を導入して視覚Transformerを改良し、384x384解像度で効率的な画像分類を実現し、ImageNetの1,000カテゴリ認識をサポートします。

モデル特徴

畳み込みとTransformerの結合
畳み込み操作により従来の視覚Transformerを改良し、局所的特徴抽出能力を向上させます。
高解像度処理
384x384解像度入力をサポートし、精密な画像分類に適しています。
大規模事前学習
ImageNet-22kデータセットで事前学習されており、強力な特徴表現能力を持っています。

モデル能力

画像分類
視覚的特徴抽出

使用事例

コンピュータビジョン
物体認識
画像中の物体カテゴリを識別(動物、日用品など)
ImageNetの1,000カテゴリを正確に分類可能
シーン理解
画像シーン内容を分析(自然風景、建築物など)
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase