C

CLIP ViT H 14 Laion2b S32b B79k

Developed by ModelsLab
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
Downloads 132
Release Time : 1/16/2025

Model Overview

このモデルはCLIPアーキテクチャを採用し、対照学習によって画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類、画像テキスト検索などのタスクをサポートします。

Model Features

大規模訓練データ
LAION-5Bの20億英語サンプルサブセットを使用して訓練され、幅広い視覚概念をカバーしています
ゼロショット能力
微調整なしで新しいカテゴリの画像分類タスクを実行可能
クロスモーダル理解
画像とテキストを同時に理解し、画像-テキストマッチングと検索をサポート

Model Capabilities

ゼロショット画像分類
画像テキスト検索
クロスモーダル埋め込み学習
画像内容理解

Use Cases

コンピュータビジョン
ゼロショット画像分類
訓練データなしで画像を分類
ImageNet-1kで78.0%のゼロショットtop-1精度を達成
画像検索
テキストクエリに基づいて関連画像を検索
COCOとFlickrデータセットで良好な性能
研究応用
マルチモーダル研究
視覚言語表現学習の研究に使用
モデル微調整基盤
下流タスクの事前訓練モデルとして
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase