C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Rewind

laionによって開発
LAION-2Bデータセットで訓練されたCLIP ConvNeXt-XXLargeモデルで、OpenCLIPフレームワークを使用し、ゼロショット画像分類タスクに焦点を当てています。
ダウンロード数 63
リリース時間 : 2/26/2023

モデル概要

これは大規模な視覚言語モデルで、ConvNeXt-XXLarge画像エンコーダーとテキストエンコーダーを組み合わせ、ゼロショット画像分類と画像テキスト検索タスクに使用されます。

モデル特徴

大規模ConvNeXtアーキテクチャ
847MパラメータのConvNeXt-XXLargeを画像エンコーダーとして使用し、公開されている最大のConvNeXt事前訓練モデルです。
高性能ゼロショット分類
ImageNet-1kで79.3%のトップ1ゼロショット精度を達成し、ViT-gとViT-Gの間の性能を持ちます。
効率的な訓練
大規模分散訓練を採用し、最大1024個のGPUを使用し、グローバルバッチサイズは81920-95744に達します。

モデル能力

ゼロショット画像分類
画像テキスト検索
画像特徴抽出
テキスト特徴抽出

使用事例

コンピュータビジョン
画像分類
特定の訓練なしで画像を分類可能
ImageNet-1kで79.3%の精度を達成
画像テキスト検索
テキスト記述に基づいて関連画像を検索、または画像から記述を生成
研究
マルチモーダル学習研究
視覚言語モデルの表現学習を研究するために使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase