V

Vit Base Patch32 Clip 224.datacompxl

timmによって開発
CLIPアーキテクチャに基づくVision Transformerモデルで、画像特徴抽出のために設計され、DataComp XLデータセットで学習済み
ダウンロード数 13
リリース時間 : 12/24/2024

モデル概要

このモデルはCLIPフレームワークの画像エンコーダ部分で、Vision Transformerアーキテクチャを採用し、入力画像を意味のある特徴表現に変換でき、様々な視覚タスクに適用可能です。

モデル特徴

CLIPアーキテクチャ
対照学習に基づく視覚-言語事前学習フレームワークで、画像とテキストの共同表現を学習可能
ViT-B/32アーキテクチャ
32x32画像パッチを使用するVision Transformer基本モデルで、性能と計算効率のバランスが取れている
DataComp XL学習
大規模DataComp XLデータセットで学習済みで、強力な汎化能力を有する

モデル能力

画像特徴抽出
視覚表現学習
クロスモーダル検索

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を使用して類似画像を検索
視覚的質問応答
マルチモーダル質問応答システムの視覚エンコーダとして使用
マルチモーダルアプリケーション
画像テキストマッチング
画像とテキスト記述間の関連性を評価
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase