C

CLIP ViT L 14 DataComp.XL S13b B90k

laionによって開発
このモデルはDataComp-1Bデータセットで訓練されたCLIP ViT-L/14モデルで、主にゼロショット画像分類と画像テキスト検索タスクに使用されます。
ダウンロード数 586.75k
リリース時間 : 4/26/2023

モデル概要

OpenCLIPフレームワークを使用してDataComp-1Bデータセットで訓練された視覚言語モデルで、ゼロショット画像分類や画像テキスト検索などのタスクを実行できます。

モデル特徴

大規模訓練データ
DataComp-1Bデータセットの14億サンプルを使用して訓練され、幅広い視覚概念をカバー
ゼロショット能力
微調整なしで新しいカテゴリの画像分類タスクを実行可能
クロスモーダル理解
画像とテキスト情報を同時に理解し、画像テキスト検索タスクをサポート

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル理解

使用事例

コンピュータビジョン
画像分類
訓練なしで新しいカテゴリの画像を分類
ImageNet-1kで79.2%のゼロショットtop-1精度を達成
画像テキスト検索
テキスト記述に基づいて関連画像を検索、または画像から記述を生成
研究
マルチモーダル研究
視覚言語モデルの表現学習と転移能力を研究
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase