V

Vit Base Patch16 Clip 224.metaclip 400m

timmによって開発
MetaCLIP-400Mデータセットで訓練されたデュアルフレームワーク互換の視覚モデルで、OpenCLIPとtimmフレームワークをサポート
ダウンロード数 1,206
リリース時間 : 10/23/2024

モデル概要

これはVision Transformerアーキテクチャに基づく視覚モデルで、ゼロショット画像分類タスク専用に設計されています。モデルはMetaCLIP-400Mデータセットで訓練され、OpenCLIPとtimmの2つのフレームワークと互換性があります。

モデル特徴

デュアルフレームワーク互換
OpenCLIPとtimmフレームワークを同時にサポートし、より柔軟な使用方法を提供
ゼロショット学習能力
特定のカテゴリ訓練なしで新しいカテゴリを分類可能
高速GELU活性化
quickgeluバリアントを採用し、より高速な訓練と推論速度を提供する可能性

モデル能力

ゼロショット画像分類
画像特徴抽出
クロスモーダル表現学習

使用事例

コンピュータビジョン
オープンドメイン画像分類
特定の訓練なしで任意のカテゴリの画像を分類
画像検索
意味的類似性に基づく画像検索
マルチモーダルアプリケーション
画像テキストマッチング
画像とテキスト記述の一致度を評価
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase