C

CLIP Convnext Base W Laion2b S13b B82k Augreg

laionによって開発
ConvNeXt-Baseアーキテクチャを基にしたCLIPモデルで、OpenCLIPを使用してLAION-5Bのサブセットでトレーニングされ、ゼロショット画像分類タスクに焦点を当てています
ダウンロード数 40.86k
リリース時間 : 1/10/2023

モデル概要

このモデルはCLIPシリーズのバリエーションで、画像エンコーダーとしてConvNeXt-Baseを採用し、LAION-2Bデータセットでトレーニングされました。ViTやResNetに代わるアーキテクチャを探求し、拡張と正則化技術を追加しています。

モデル特徴

ConvNeXtアーキテクチャ
初めて大規模にトレーニングされたConvNeXt CLIPモデルで、ViTやResNetに代わるアーキテクチャ選択を探求しています
拡張正則化
ランダムリサイズクロップ、ランダム消去、ランダム深度などの拡張技術を採用し、モデル性能を向上させています
高サンプル効率
13Bサンプルのトレーニング後、ImageNetゼロショット精度70%以上を達成し、良好なサンプル効率を示しています

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル表現学習

使用事例

コンピュータビジョン
画像分類
微調整なしで任意のカテゴリの画像を分類可能
ImageNetゼロショットtop-1精度71.5%
画像検索
テキスト記述に基づいて関連画像を検索
研究
マルチモーダル学習研究
視覚と言語表現間のアラインメントを研究
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase