C

CLIP ViT B 32 Laion2b S34b B79k

recallappによって開発
OpenCLIPフレームワークを使用し、LAION-2B英語データセットで訓練された視覚-言語モデル。ゼロショット画像分類とクロスモーダル検索をサポート
ダウンロード数 17
リリース時間 : 1/12/2025

モデル概要

このモデルはCLIPアーキテクチャのバリアントで、ViT-B/32視覚エンコーダーを使用し、画像-テキストペアで対照学習により訓練されています。ファインチューニングなしでゼロショット画像分類とクロスモーダル検索タスクを実行可能です。

モデル特徴

ゼロショット学習能力
特定タスクのファインチューニングなしで新しいカテゴリの画像分類を実行可能
クロスモーダル理解
視覚情報とテキスト情報を共有埋め込み空間にマッピング可能
大規模訓練
LAION-2Bデータセット(20億の画像-テキストペア)で訓練

モデル能力

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索
画像特徴抽出

使用事例

コンテンツ検索
テキストベースの画像検索
自然言語クエリを使用して関連画像を検索
画像分類
ゼロショット分類
訓練なしで新しいカテゴリを分類
ImageNet-1kで66.6%のゼロショットtop-1精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase