C

CLIP Convnext Base W 320 Laion Aesthetic S13b B82k

laionによって開発
ConvNeXt-Baseアーキテクチャに基づくCLIPモデルで、LAION-5Bのサブセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクに適しています。
ダウンロード数 12.67k
リリース時間 : 1/3/2023

モデル概要

これはConvNeXt-Baseアーキテクチャに基づくCLIPモデルで、OpenCLIPを使用してLAION-5Bのサブセットでトレーニングされました。モデルはViTとResNetの代替アーキテクチャを探求し、モデルサイズと画像解像度において優れた拡張性を持っています。

モデル特徴

ConvNeXtアーキテクチャ
初めて大規模にトレーニングされたConvNeXt CLIPモデルで、ViTとResNetの代替アーキテクチャの可能性を探求
拡張と正則化
ランダムリサイズクロップ、ランダム消去、ランダム深度などの拡張と正則化技術を採用してモデル性能を向上
高解像度トレーニング
一部のモデルは320x320の高解像度でトレーニングされ、画像認識精度を向上
サンプル効率が高い
ViT-B/16モデルと比較して、より少ないトレーニングサンプルでより高い精度を達成

モデル能力

ゼロショット画像分類
画像テキスト検索
画像特徴抽出
テキスト特徴抽出

使用事例

コンピュータビジョン
画像分類
微調整なしで画像を分類
ImageNetゼロショットtop-1精度71.7%
画像検索
テキスト記述に基づいて関連画像を検索
マルチモーダル研究
視覚言語アライメント
画像とテキスト表現間のアライメント関係を研究
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase