C

CLIP ViT B 32 Laion2b S34b B79k

Developed by laion
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
Downloads 1.1M
Release Time : 9/14/2022

Model Overview

このモデルはCLIPアーキテクチャのバリアントで、ViT-B/32視覚エンコーダーを使用し、LAION-5Bの20億英語サンプルサブセットでトレーニングされました。主に研究コミュニティがゼロショット画像分類とクロスモーダル理解タスクを探求するために使用されます。

Model Features

ゼロショット学習能力
特定のタスクの微調整なしで画像分類タスクを実行可能
クロスモーダル理解
視覚とテキスト情報を同時に処理し、画像とテキストの関連付けを実現
大規模トレーニングデータ
LAION-2Bデータセットを使用し、20億の英語画像-テキストペアを含む

Model Capabilities

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索
画像特徴抽出

Use Cases

研究応用
ゼロショット画像分類研究
未見カテゴリにおけるモデルの分類能力を探求
ImageNet-1kで66.6%のゼロショットtop-1精度を達成
クロスモーダル理解研究
視覚と言語モダリティ間の関連メカニズムを研究
潜在応用
画像検索システム
テキスト記述に基づいて関連画像を検索
コンテンツモデレーション支援
画像内の特定コンテンツを識別
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase