C

CLIP Convnext Base W Laion Aesthetic S13b B82k

laionによって開発
LAION-AestheticデータセットでトレーニングされたConvNeXt-BaseアーキテクチャのCLIPモデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポート
ダウンロード数 703
リリース時間 : 1/3/2023

モデル概要

このモデルは、OpenCLIPフレームワークを使用してLAION-AestheticデータセットでトレーニングされたConvNeXt-BaseアーキテクチャのCLIPモデルで、ViTやResNetの代替アーキテクチャとしてのConvNeXtの可能性を探求し、画像分類タスクで優れたパフォーマンスを発揮します。

モデル特徴

ConvNeXtアーキテクチャの革新
大規模にトレーニングされた最初のConvNeXt CLIPモデルで、CLIPタスクにおけるこのアーキテクチャの可能性を探求
強化されたトレーニング戦略
ランダムリサイズクロップ、ランダム消去、ランダム深度などの拡張技術を採用してモデルの性能を向上
高いサンプル効率
130億サンプルのトレーニングで71%以上のImageNetゼロショット精度を達成し、同じサンプル量でのViT-B/16の性能を上回る
マルチ解像度サポート
256x256と320x320の2つの解像度バージョンを提供し、さまざまなアプリケーションシナリオのニーズに対応

モデル能力

ゼロショット画像分類
画像テキストマッチング
クロスモーダル検索
画像特徴抽出

使用事例

コンテンツ検索
画像検索エンジン
テキストクエリに基づいて関連画像を検索
逆画像検索
画像コンテンツに基づいて類似または関連画像を検索
分類システム
ゼロショット分類
微調整なしで新しいカテゴリを分類
ImageNet-1kで71.0%の精度
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase