V

Vit Bigg 14 CLIPA Datacomp1b

UCSC-VLAAによって開発
CLIPA-v2モデル、ゼロショット画像分類タスクに特化し、対比式画像テキスト学習による効率的な視覚表現学習を実現
ダウンロード数 623
リリース時間 : 10/20/2023

モデル概要

これはCLIPA-v2アーキテクチャに基づく対比式画像テキストモデルで、ゼロショット画像分類タスク専用です。大規模データセットで訓練することで、画像とテキストの関連性を理解し、特定の訓練なしで分類能力を発揮します。

モデル特徴

効率的なゼロショット学習
特定タスクの訓練なしで画像分類を実現
低コスト高性能
比較的低い訓練コストで81.1%のゼロショットImageNet精度を達成
逆スケーリング法則
CLIPA訓練の逆スケーリング法則を採用し、モデル性能と計算リソースのバランスを最適化

モデル能力

ゼロショット画像分類
画像テキスト対比学習
クロスモーダル表現学習

使用事例

コンピュータビジョン
画像分類
特定の訓練なしで任意の画像を分類
ImageNetで81.1%のゼロショット精度を達成
画像テキスト検索
テキスト記述に基づいて関連画像を検索、またはその逆
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase