C

CLIP ViT B 32 256x256 DataComp S34b B86k

laionによって開発
これはDataComp-1Bデータセットで訓練されたCLIP ViT-B/32モデルで、OpenCLIPフレームワークを使用して256x256解像度で訓練され、主にゼロショット画像分類と画像テキスト検索タスクに使用されます。
ダウンロード数 4,332
リリース時間 : 9/12/2023

モデル概要

このモデルはDataComp-1Bデータセットで訓練された視覚言語モデルで、ゼロショット画像分類や画像テキスト検索などのタスクを実行できます。

モデル特徴

大規模データ訓練
DataComp-1Bデータセットの14億サンプルで訓練されており、強力な汎化能力を持っています。
ゼロショット学習能力
特定のタスクの微調整なしでさまざまな画像分類タスクを実行できます。
高解像度サポート
256x256解像度の画像入力をサポートし、より豊富な視覚的詳細を捉えることができます。

モデル能力

ゼロショット画像分類
画像テキスト検索
クロスモーダル理解

使用事例

画像理解
ゼロショット画像分類
訓練なしで画像を分類できます
ImageNet-1kで72.7%のゼロショットtop-1精度を達成
画像テキスト検索
テキストクエリに基づいて関連画像を検索したり、画像に基づいて関連テキストを検索したりできます
COCOデータセットで64.4%の画像検索recall@5と80.7%のテキスト検索recall@5を実現
研究
クロスモーダル学習研究
視覚と言語モダリティ間の関連性を研究します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase