C

CLIP Convnext Large D 320.laion2B S29b B131k Ft

laionによって開発
ConvNeXt-Largeアーキテクチャに基づくCLIPモデルで、LAION-2Bデータセットでトレーニングされ、ゼロショット画像分類と画像テキスト検索タスクをサポートします。
ダウンロード数 3,810
リリース時間 : 2/11/2023

モデル概要

このモデルは視覚エンコーダーとしてConvNeXt-Largeを採用し、追加のテキスト深度と視覚MLPヘッドを持ち、320x320解像度でファインチューニングされており、ゼロショット画像分類とクロスモーダル検索タスクに適しています。

モデル特徴

高解像度処理能力
320x320解像度でファインチューニングされており、類似モデルよりも効率的で計算リソースの消費が少ないです。
強化された視覚MLPヘッド
視覚タワーは単一の投影ではなくMLP(fc-gelu-drop-fc)ヘッドを使用し、特徴表現能力を向上させています。
大規模トレーニングデータ
LAION-2Bデータセット(20億の英語サンプル)に基づいてトレーニングされており、幅広い視覚概念をカバーしています。

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル表現学習

使用事例

画像理解
ゼロショット画像分類
ファインチューニングなしで新しいカテゴリの画像を分類できます
ImageNet-1kで76.6%のゼロショットTop-1精度を達成
クロスモーダル検索
画像テキスト検索システム
自然言語クエリに基づく画像検索システムを構築
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase