C

CLIP ViT Bigg 14 Laion2b 39B B160k

laionによって開発
OpenCLIPフレームワークを使用してLAION-2Bデータセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索をサポート
ダウンロード数 565.80k
リリース時間 : 1/23/2023

モデル概要

これはViT-bigG/14アーキテクチャに基づくCLIPモデルで、OpenCLIPフレームワークを使用してLAION-5Bの20億英語サブセットでトレーニングされました。モデルは画像とテキスト間の意味関係を理解し、ゼロショット画像分類とクロスモーダル検索タスクをサポートします。

モデル特徴

ゼロショット学習能力
特定のタスクの微調整なしで新しいカテゴリの画像分類タスクを実行可能
クロスモーダル理解
画像とテキストの意味関係を同時に理解可能
大規模トレーニング
20億規模のLAION-2B英語データセットでトレーニング
高性能
ImageNet-1kで80.1%のゼロショットtop-1精度を達成

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル意味理解
画像特徴抽出

使用事例

画像理解
ゼロショット画像分類
トレーニングなしで新しいカテゴリの画像を分類
ImageNet-1kで80.1%の精度を達成
画像検索
テキスト記述に基づいて関連画像を検索
研究応用
マルチモーダル研究
視覚-言語共同表現学習の研究に使用
モデル微調整ベース
下流タスクの事前学習モデルとして使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase