C

CLIP ViT B 32 Laion2b S34b B79k

laionによって開発
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
ダウンロード数 1.1M
リリース時間 : 9/14/2022

モデル概要

このモデルはCLIPアーキテクチャのバリアントで、ViT-B/32視覚エンコーダーを使用し、LAION-5Bの20億英語サンプルサブセットでトレーニングされました。主に研究コミュニティがゼロショット画像分類とクロスモーダル理解タスクを探求するために使用されます。

モデル特徴

ゼロショット学習能力
特定のタスクの微調整なしで画像分類タスクを実行可能
クロスモーダル理解
視覚とテキスト情報を同時に処理し、画像とテキストの関連付けを実現
大規模トレーニングデータ
LAION-2Bデータセットを使用し、20億の英語画像-テキストペアを含む

モデル能力

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索
画像特徴抽出

使用事例

研究応用
ゼロショット画像分類研究
未見カテゴリにおけるモデルの分類能力を探求
ImageNet-1kで66.6%のゼロショットtop-1精度を達成
クロスモーダル理解研究
視覚と言語モダリティ間の関連メカニズムを研究
潜在応用
画像検索システム
テキスト記述に基づいて関連画像を検索
コンテンツモデレーション支援
画像内の特定コンテンツを識別
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase