C

CLIP ViT B 32 Laion2b S34b B79k

Developed by recallapp
OpenCLIPフレームワークを使用し、LAION-2B英語データセットで訓練された視覚-言語モデル。ゼロショット画像分類とクロスモーダル検索をサポート
Downloads 17
Release Time : 1/12/2025

Model Overview

このモデルはCLIPアーキテクチャのバリアントで、ViT-B/32視覚エンコーダーを使用し、画像-テキストペアで対照学習により訓練されています。ファインチューニングなしでゼロショット画像分類とクロスモーダル検索タスクを実行可能です。

Model Features

ゼロショット学習能力
特定タスクのファインチューニングなしで新しいカテゴリの画像分類を実行可能
クロスモーダル理解
視覚情報とテキスト情報を共有埋め込み空間にマッピング可能
大規模訓練
LAION-2Bデータセット(20億の画像-テキストペア)で訓練

Model Capabilities

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索
画像特徴抽出

Use Cases

コンテンツ検索
テキストベースの画像検索
自然言語クエリを使用して関連画像を検索
画像分類
ゼロショット分類
訓練なしで新しいカテゴリを分類
ImageNet-1kで66.6%のゼロショットtop-1精度を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase