C

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup

laionによって開発
LAION-2BデータセットでトレーニングされたCLIP ConvNeXt-XXLargeモデル。OpenCLIPフレームワークを使用し、非ViT画像タワーCLIPモデルとして初めて>79%のImageNet top-1ゼロショット精度を達成
ダウンロード数 9,412
リリース時間 : 2/26/2023

モデル概要

このモデルはConvNeXt-XXLargeアーキテクチャを使用したCLIPモデルで、ゼロショット画像分類と画像テキスト検索タスク専用です。モデルスープ手法により2つのトレーニング段階の重みを組み合わせ、256x256解像度で優れた性能を発揮します。

モデル特徴

大規模ConvNeXtアーキテクチャ
847MパラメータのConvNeXt-XXLargeを画像タワーとして採用。現在公開されている最大のConvNeXt事前トレーニングモデル
高性能ゼロショット分類
ImageNetで79.4%のゼロショットtop-1精度を達成。多くのViTアーキテクチャモデルを上回る
効率的な計算
256x256解像度では、ViT-gとViT-Gの中間の計算効率を持ちながら、リソース消費は後者より大幅に低い
モデルスープ統合
2つの異なるトレーニング段階のモデル重みを平均化することで、さらに性能を向上

モデル能力

ゼロショット画像分類
画像テキスト検索
画像特徴抽出
テキスト特徴抽出

使用事例

コンピュータビジョン
ゼロショット画像分類
特定のトレーニングなしで画像を分類可能
ImageNetで79.4% top-1精度を達成
画像検索
テキスト記述に基づき関連画像を検索
マルチモーダル研究
視覚言語アライメント研究
画像とテキスト表現間のアライメント関係を研究
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase