C

Clip Vit Base Patch16

Xenovaによって開発
OpenAIがオープンソース化したCLIPモデル、Vision Transformerアーキテクチャに基づき、画像とテキストのクロスモーダル理解をサポート
ダウンロード数 32.99k
リリース時間 : 5/19/2023

モデル概要

Vision Transformerアーキテクチャに基づくマルチモーダルモデルで、画像とテキストの内容を同時に理解し、ゼロショット画像分類やクロスモーダル検索などのタスクを実現

モデル特徴

ゼロショット学習能力
特定のタスク訓練なしで直接画像分類タスクを実行可能
クロスモーダル理解
視覚情報とテキスト情報を同時に処理し、画像-テキスト類似度を計算可能
効率的な視覚エンコーディング
16x16パッチのVision Transformerアーキテクチャで画像入力を処理

モデル能力

ゼロショット画像分類
画像テキストマッチング
クロスモーダル埋め込み計算
視覚コンテンツ理解
テキストコンテンツ理解

使用事例

コンテンツ検索
画像テキストマッチング検索
テキスト記述に基づき関連画像を検索
インテリジェント分類
動的画像分類
事前訓練なしで画像をカスタムカテゴリに分類可能
例ではトラ画像の分類精度が99.9%を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase