V

Vit Base Patch16 Clip 224.openai

timmによって開発
CLIPはOpenAIが開発した視覚-言語モデルで、コントラスティブラーニングにより画像とテキストのエンコーダを訓練し、ゼロショット画像分類をサポートします。
ダウンロード数 618.17k
リリース時間 : 11/1/2022

モデル概要

CLIPモデルはコンピュータビジョンタスクのロバスト性要因を探求し、任意の画像分類タスクにゼロショット方式で汎化するモデルの能力をテストします。

モデル特徴

ゼロショット汎化能力
特定タスクのファインチューニングなしで多様な画像分類タスクを実行可能
マルチモーダルコントラスティブラーニング
コントラスト損失により画像とテキストエンコーダを共同訓練
トランスフォーマーアーキテクチャ
ViT-B/16視覚トランスフォーマーとテキストトランスフォーマーエンコーダを採用

モデル能力

ゼロショット画像分類
画像-テキスト類似度計算
クロスモーダル特徴抽出

使用事例

学術研究
コンピュータビジョンのロバスト性研究
異なる分布データにおけるモデルの性能を探索
論文ではデータセット間の汎化能力を実証
マルチモーダル学習研究
視覚と言語表現の共同学習を研究
コントラスティブラーニングの有効性を証明
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase