C

CLIP Convnext Base W Laion2b S13b B82k

laionによって開発
ConvNeXt-Baseアーキテクチャに基づくCLIPモデルで、LAION-5Bサブセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポート
ダウンロード数 4,522
リリース時間 : 1/3/2023

モデル概要

このモデルはOpenCLIPフレームワークでトレーニングされたCLIPモデルのバリアントで、画像エンコーダーとしてConvNeXt-Baseを採用し、LAION-5Bデータセットのサブセットでトレーニングされ、優れたゼロショット画像分類能力を持っています

モデル特徴

ConvNeXtアーキテクチャ
画像エンコーダーとしてConvNeXt-Baseを採用し、ViTやResNetに代わるCLIPモデルアーキテクチャを探索
強化された正則化
ランダムリサイズクロップ、ランダム消去、ランダム深度などの拡張技術を使用してモデル性能を向上
高解像度トレーニング
320x320の高解像度でトレーニングし、画像認識能力を向上
大規模トレーニング
LAION-5Bデータセットのサブセットで13Bサンプルをトレーニングし、優れたサンプル効率を実現

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル表現学習

使用事例

コンピュータビジョン
画像分類
微調整なしで画像を分類可能
ImageNetゼロショット精度71.7%
画像テキスト検索
画像からテキスト、またはテキストから画像への検索を実現
研究
マルチモーダル研究
視覚言語連合表現学習の研究に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase