C

CLIP ViT L 14 Laion2b S32b B82k

laionによって開発
OpenCLIPフレームワークを使用し、LAION-2B英語サブセットでトレーニングされた視覚言語モデル。ゼロショット画像分類と画像テキスト検索をサポート
ダウンロード数 79.01k
リリース時間 : 9/14/2022

モデル概要

このモデルはViT-L/14アーキテクチャを使用し、LAION-5Bデータセットの20億英語サンプルサブセットでトレーニングされ、強力なクロスモーダル理解能力を備え、画像とテキストを共有の埋め込み空間にマッピング可能

モデル特徴

大規模トレーニングデータ
LAION-5Bデータセットの20億英語サンプルを使用してトレーニングされ、幅広い視覚概念をカバー
ゼロショット学習能力
ファインチューニングなしで新しいカテゴリの画像分類タスクを実行可能
クロスモーダル理解
画像とテキストを共有の意味空間にマッピングし、画像テキスト相互検索をサポート
高精度
ImageNet-1kで75.3のゼロショットtop-1精度を達成

モデル能力

ゼロショット画像分類
画像テキスト検索
テキスト画像検索
クロスモーダル特徴抽出

使用事例

コンテンツ検索
画像検索エンジン
自然言語クエリを使用して関連画像を検索
インテリジェント分類
動的画像分類
再トレーニングなしで新しいカテゴリを分類
ImageNet-1kで75.3%の精度を達成
創作支援
画像生成ガイダンス
生成モデルにテキスト条件付けガイダンスを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase