C

Clip Vit Base Patch16

openaiによって開発
CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。
ダウンロード数 4.6M
リリース時間 : 3/2/2022

モデル概要

CLIPモデルは画像とテキストエンコーダを共同訓練することで、特定タスクのファインチューニングなしに多様な画像分類タスクを遂行できます。その中核的な革新は自然言語を教師信号として利用し、柔軟なゼロショット転移を実現することです。

モデル特徴

ゼロショット転移能力
特定タスクのファインチューニング不要で新しい画像分類タスクに適用可能、テキストラベル記述を提供するだけで良い
マルチモーダルアライメント
コントラスティブラーニングにより画像とテキストを共有の意味空間にマッピングし、クロスモーダル理解を実現
ロバスト性の高い性能
様々な分布シフトテストセットで従来の教師ありモデルを上回るロバスト性を示す

モデル能力

ゼロショット画像分類
画像-テキスト類似度計算
クロスモーダル検索
マルチモーダル特徴抽出

使用事例

学術研究
コンピュータビジョンのロバスト性研究
異なる分布シフト状況下でのモデル性能を研究するために使用
ImageNetバリアントテストセットでより強いロバスト性を示した
マルチモーダル表現学習
基礎モデルとして視覚-言語連合表現を研究
限定適用シナリオ
限定画像検索
固定分類体系下での画像検索アプリケーション
ドメイン固有テスト完了後に展開可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase