C

CLIP ViT B 16 Laion2b S34b B88k

laionによって開発
OpenCLIPフレームワークでトレーニングされたマルチモーダル視覚言語モデルで、LAION-2B英語データセットでトレーニングされ、ゼロショット画像分類タスクをサポートします
ダウンロード数 251.02k
リリース時間 : 1/3/2023

モデル概要

このCLIPモデルはViT-B/16アーキテクチャを採用し、対照学習を通じて画像とテキストの共同表現を実現し、ゼロショット画像分類、画像テキスト検索などのクロスモーダルタスクに使用できます

モデル特徴

大規模トレーニングデータ
LAION-5Bの20億英語サンプルのサブセットを使用してトレーニングされ、幅広い視覚概念をカバーしています
ゼロショット学習能力
微調整なしで新しいカテゴリ認識タスクに直接適用可能
クロスモーダルアライメント
対照学習を通じて画像とテキスト特徴の統一表現空間を実現

モデル能力

ゼロショット画像分類
画像テキスト類似度計算
クロスモーダル検索
画像特徴抽出

使用事例

コンピュータビジョン
オープンドメイン画像分類
自然言語記述を使用して画像を直接分類し、事前定義されたカテゴリ体系は不要
ImageNet-1kで70.2%のゼロショットtop-1精度を達成
情報検索
画像テキスト相互検索
テキストから画像、または画像からテキストへの双方向検索を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase