C

CLIP ViT H 14 Laion2b S32b B79k

laionによって開発
OpenCLIPフレームワークを使用してLAION-2B英語データセットでトレーニングされた視覚-言語モデルで、ゼロショット画像分類とクロスモーダル検索タスクをサポートします
ダウンロード数 1.8M
リリース時間 : 9/14/2022

モデル概要

これはViT-H/14アーキテクチャを使用したCLIPモデルで、LAION-5Bの20億英語サブセットで特別にトレーニングされています。モデルは画像とテキストの関連性を理解し、ゼロショット画像分類とクロスモーダル検索を実現できます。

モデル特徴

大規模事前学習
LAION-2B大規模マルチモーダルデータセットでトレーニングされており、強力な汎化能力を持っています
ゼロショット能力
微調整なしで新しいカテゴリの画像分類タスクを実行できます
クロスモーダル理解
視覚情報とテキスト情報を同時に処理し、画像とテキストの関連付けを実現できます

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル特徴抽出
画像分類微調整

使用事例

コンテンツ検索
画像検索エンジン
自然言語クエリを使用して関連画像を検索します
インテリジェント分類
動的画像分類
事前トレーニングなしで新しいカテゴリを分類できます
ImageNet-1kで78.0%のゼロショットtop-1精度を達成
創作支援
画像生成ガイダンス
生成モデルにテキスト条件付けガイダンスを提供します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase