V

Vit Base Patch32 Clip 224.metaclip 400m

timmによって開発
MetaCLIP-400Mデータセットで訓練された視覚言語モデルで、ゼロショット画像分類タスクをサポート
ダウンロード数 2,406
リリース時間 : 10/23/2024

モデル概要

これはOpenCLIPとtimmフレームワークで使用可能なデュアルユースの視覚言語モデルで、主にゼロショット画像分類タスクに使用されます。

モデル特徴

デュアルフレームワークサポート
OpenCLIPとtimmフレームワークの両方に対応し、柔軟な使用方法を提供
ゼロショット学習能力
特定のタスク訓練なしで画像分類タスクを実行可能
高速推論
ViT-B-32アーキテクチャに基づき最適化され、効率的な推論速度を提供

モデル能力

ゼロショット画像分類
画像特徴抽出
クロスモーダル理解

使用事例

コンピュータビジョン
汎用画像分類
未知のカテゴリの画像を特定の訓練なしで分類
様々な画像分類タスクで良好なパフォーマンス
コンテンツモデレーション
画像内の不適切なコンテンツを識別
マルチモーダルアプリケーション
画像テキストマッチング
画像とテキスト記述の一致度を評価
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase