V

Vit Base Patch16 Clip 224.metaclip 400m

Developed by timm
MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
Downloads 1,206
Release Time : 10/23/2024

Model Overview

これはVision Transformerアーキテクチャに基づく視覚モデルで、ゼロショット画像分類タスク専用に設計されています。モデルはMetaCLIP-400Mデータセットで訓練され、OpenCLIPとtimmの2つのフレームワークと互換性があります。

Model Features

デュアルフレームワーク互換
OpenCLIPとtimmフレームワークを同時にサポートし、より柔軟な使用方法を提供
ゼロショット学習能力
特定のカテゴリ訓練なしで新しいカテゴリを分類可能
高速GELU活性化
quickgeluバリアントを採用し、より高速な訓練と推論速度を提供する可能性

Model Capabilities

ゼロショット画像分類
画像特徴抽出
クロスモーダル表現学習

Use Cases

コンピュータビジョン
オープンドメイン画像分類
特定の訓練なしで任意のカテゴリの画像を分類
画像検索
意味的類似性に基づく画像検索
マルチモーダルアプリケーション
画像テキストマッチング
画像とテキスト記述の一致度を評価
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase