C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg

Developed by laion
LAION-2BデータセットでトレーニングされたCLIP ConvNeXt-XXLargeモデルで、OpenCLIPフレームワークで実装されており、ViTアーキテクチャ以外で初めて>79%のImageNetゼロショット精度を達成したCLIPモデル
Downloads 6,616
Release Time : 2/26/2023

Model Overview

このモデルはCLIPアーキテクチャのバリエーションで、ConvNeXt-XXLargeを画像エンコーダーとして使用し、LAION-2Bデータセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポート

Model Features

大規模ConvNeXtアーキテクチャ
847MパラメータのConvNeXt-XXLargeを画像エンコーダーとして使用し、現在最大のConvNeXt事前トレーニングモデル
高性能ゼロショット分類
ImageNetで79.1%のゼロショットTop-1精度を達成し、性能はViT-gとViT-Gの間
最適化されたトレーニングプロセス
段階的なトレーニング戦略を採用し、95744のグローバルバッチサイズを使用し、bfloat16精度と特別な最適化戦略を組み合わせ
画像サイズ適応性
ViTアーキテクチャと比較して、より大きな入力解像度でより良い計算効率と性能を発揮

Model Capabilities

ゼロショット画像分類
画像テキスト類似度計算
クロスモーダル検索
画像特徴抽出
テキスト特徴抽出

Use Cases

コンピュータビジョン
画像分類
微調整なしで任意のカテゴリの画像を分類
ImageNetで79.1% Top-1精度
画像検索
テキスト記述に基づいて関連画像を検索
マルチモーダル研究
視覚言語アライメント
画像とテキスト表現空間のアライメントを研究
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase