C

CLIP ViT H 14 Laion2b S32b B79k

ModelsLabによって開発
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
ダウンロード数 132
リリース時間 : 1/16/2025

モデル概要

このモデルはCLIPアーキテクチャを採用し、対照学習によって画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類、画像テキスト検索などのタスクをサポートします。

モデル特徴

大規模訓練データ
LAION-5Bの20億英語サンプルサブセットを使用して訓練され、幅広い視覚概念をカバーしています
ゼロショット能力
微調整なしで新しいカテゴリの画像分類タスクを実行可能
クロスモーダル理解
画像とテキストを同時に理解し、画像-テキストマッチングと検索をサポート

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル埋め込み学習
画像内容理解

使用事例

コンピュータビジョン
ゼロショット画像分類
訓練データなしで画像を分類
ImageNet-1kで78.0%のゼロショットtop-1精度を達成
画像検索
テキストクエリに基づいて関連画像を検索
COCOとFlickrデータセットで良好な性能
研究応用
マルチモーダル研究
視覚言語表現学習の研究に使用
モデル微調整基盤
下流タスクの事前訓練モデルとして
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase