V

Vit Huge Patch14 Clip 224.metaclip 2pt5b

Developed by timm
MetaCLIP-2.5Bデータセットで訓練されたデュアルユースの視覚言語モデル、ゼロショット画像分類タスクをサポート
Downloads 3,173
Release Time : 10/23/2024

Model Overview

このモデルはOpenCLIPとtimmフレームワーク互換のVision Transformerモデルで、主にゼロショット画像分類タスクに使用され、強力なクロスモーダル理解能力を備えています。

Model Features

デュアルフレームワーク互換
OpenCLIPとtimmフレームワークを同時サポート、柔軟な使用方法を提供
大規模事前学習
MetaCLIP-2.5B大規模データセットで訓練、強力な視覚言語理解能力を有する
ゼロショット学習
特定タスクのファインチューニング不要でゼロショット画像分類タスクをサポート
効率的なアーキテクチャ
Vision Transformer Hugeアーキテクチャを採用、quickgelu活性化関数で性能と効率をバランス

Model Capabilities

ゼロショット画像分類
クロスモーダル理解
画像特徴抽出

Use Cases

コンピュータビジョン
画像分類
未見の画像カテゴリを分類、追加訓練不要
ゼロショット設定で高精度分類を実現
クロスモーダル検索
画像とテキスト間のクロスモーダル検索を実現
コンテンツ理解
自動タグ付け
画像に記述的タグを生成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase