C

CLIP ViT B 16 DataComp.XL S13b B90k

laionによって開発
これはDataComp-1BデータセットでOpenCLIPを使用して訓練されたCLIP ViT-B/16モデルで、主にゼロショット画像分類と画像テキスト検索に使用されます。
ダウンロード数 4,461
リリース時間 : 5/15/2023

モデル概要

このモデルはCLIPアーキテクチャに基づいており、大規模なマルチモーダル訓練を通じてゼロショット画像分類能力を実現し、クロスモーダル検索タスクをサポートします。

モデル特徴

大規模マルチモーダル訓練
DataComp-1Bデータセットの14億サンプルを使用して訓練されており、強力な汎化能力を持っています。
ゼロショット学習能力
特定のタスクのファインチューニングなしで、ゼロショット画像分類などのさまざまな視覚タスクを実行できます。
クロスモーダル理解
画像とテキスト間の意味的関連性を理解でき、クロスモーダル検索タスクをサポートします。

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル理解
画像特徴抽出

使用事例

コンピュータビジョン
ゼロショット画像分類
訓練なしで画像を分類でき、カスタム分類体系をサポートします。
ImageNet-1kで73.5%のゼロショットtop-1精度を達成
画像検索
テキスト記述に基づいて関連画像を検索したり、画像に基づいて関連テキストを検索したりできます。
研究応用
マルチモーダル研究
視覚言語モデルの表現学習とクロスモーダル理解の研究に使用されます。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase