R

Resnet50 Clip Gap.cc12m

timmによって開発
ResNet50アーキテクチャに基づくCLIPスタイルの画像エンコーダー、CC12Mデータセットでトレーニングされ、グローバル平均プーリング(GAP)で特徴を抽出
ダウンロード数 19
リリース時間 : 12/26/2024

モデル概要

このモデルはtimmライブラリの画像特徴抽出モデルで、ResNet50アーキテクチャとCLIPトレーニング手法を組み合わせ、画像表現学習に最適化されています

モデル特徴

CLIPスタイルトレーニング
CLIPのようなコントラスティブ学習手法でトレーニングされ、画像表現能力を強化
グローバル平均プーリング
従来の全結合層の代わりにGAP(Global Average Pooling)を使用し、特徴抽出タスクに適している
大規模事前学習
CC12M(約1200万の画像-テキストペア)データセットで事前学習済み

モデル能力

画像特徴抽出
視覚表現学習
画像埋め込み生成

使用事例

コンピュータビジョン
画像検索
類似画像検索のための画像特徴を抽出
マルチモーダル学習
画像とテキストのマッチングなどのタスクのための視覚エンコーダーとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase