C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg

laionによって開発
LAION-2BデータセットでトレーニングされたCLIP ConvNeXt-XXLargeモデルで、OpenCLIPフレームワークで実装されており、ViTアーキテクチャ以外で初めて>79%のImageNetゼロショット精度を達成したCLIPモデル
ダウンロード数 6,616
リリース時間 : 2/26/2023

モデル概要

このモデルはCLIPアーキテクチャのバリエーションで、ConvNeXt-XXLargeを画像エンコーダーとして使用し、LAION-2Bデータセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポート

モデル特徴

大規模ConvNeXtアーキテクチャ
847MパラメータのConvNeXt-XXLargeを画像エンコーダーとして使用し、現在最大のConvNeXt事前トレーニングモデル
高性能ゼロショット分類
ImageNetで79.1%のゼロショットTop-1精度を達成し、性能はViT-gとViT-Gの間
最適化されたトレーニングプロセス
段階的なトレーニング戦略を採用し、95744のグローバルバッチサイズを使用し、bfloat16精度と特別な最適化戦略を組み合わせ
画像サイズ適応性
ViTアーキテクチャと比較して、より大きな入力解像度でより良い計算効率と性能を発揮

モデル能力

ゼロショット画像分類
画像テキスト類似度計算
クロスモーダル検索
画像特徴抽出
テキスト特徴抽出

使用事例

コンピュータビジョン
画像分類
微調整なしで任意のカテゴリの画像を分類
ImageNetで79.1% Top-1精度
画像検索
テキスト記述に基づいて関連画像を検索
マルチモーダル研究
視覚言語アライメント
画像とテキスト表現空間のアライメントを研究
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase