V

Vit Base Patch16 Clip 224.datacompxl

timmによって開発
CLIPアーキテクチャに基づくビジョントランスフォーマーモデルで、画像特徴抽出に特化しており、ViT-B/16構造を採用しDataComp XLデータセットでトレーニング
ダウンロード数 36
リリース時間 : 12/24/2024

モデル概要

このモデルはCLIP(Contrastive Language-Image Pretraining)の画像エンコーダー部分であり、入力画像を意味のある特徴表現に変換でき、様々な視覚タスクに適用可能

モデル特徴

大規模事前学習
DataComp XLデータセットでトレーニングされており、このデータセットには大規模な画像-テキストペアが含まれる
効率的な画像エンコーディング
ViTアーキテクチャを採用し、224x224解像度の入力画像を効率的に処理可能
対照学習最適化
CLIPの対照学習目標でトレーニングされ、学習された特徴はより良い汎化能力を持つ

モデル能力

画像特徴抽出
視覚表現学習
クロスモーダルアライメント(テキスト特徴空間との整合)

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を使用して類似画像検索を実行
視覚分類
下流分類タスクのための特徴抽出器として使用
マルチモーダルアプリケーション
画像テキストマッチング
テキストエンコーダーと連携して画像テキストマッチングタスクを実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase