C

Clip Vit Large Patch14

openaiによって開発
CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします
ダウンロード数 44.7M
リリース時間 : 3/2/2022

モデル概要

CLIPモデルは、画像エンコーダーとテキストエンコーダーを共同で訓練し、画像とテキスト間の意味的対応関係を学習します。ゼロショット画像分類やクロスモーダル検索などのタスクに使用できます。

モデル特徴

ゼロショット学習能力
特定のタスクの微調整なしで新しい画像分類タスクを実行可能
マルチモーダル理解
視覚情報とテキスト情報を同時に理解し、クロスモーダル関連を確立
強力な汎化性能
幅広いデータセットで良好な汎化性能を示す

モデル能力

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索
マルチモーダル特徴抽出

使用事例

コンピュータビジョン研究
ロバスト性研究
コンピュータビジョンモデルのロバスト性と汎化性を研究
30以上のデータセットで性能を評価
ゼロショット分類
訓練なしで任意のカテゴリの画像分類を実行
クロスモーダルアプリケーション
画像検索
自然言語クエリを使用して関連画像を検索
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase