P

Prolip ViT B 16 DC 1B 12 8B

SanghyukChunによって開発
DataComp 1Bデータセットで事前学習された確率的言語-画像事前学習(ProLIP)ViT-B/16モデル
ダウンロード数 460
リリース時間 : 10/18/2024

モデル概要

これは確率的言語-画像事前学習手法(ProLIP)を採用した視覚言語モデルで、画像分類とクロスモーダル検索タスクを処理でき、特にゼロショット学習シナリオに優れています。

モデル特徴

確率的モデリング
確率的手法で画像とテキスト特徴の分布をモデル化し、予測の不確実性を定量化可能
大規模事前学習
DataComp 1Bデータセットで事前学習、実際に12.8億の訓練サンプルを使用
ゼロショット学習能力
ファインチューニング不要で新規タスクに優れた性能を発揮、ゼロショット画像分類と検索をサポート
不確実性認識
画像とテキスト特徴の不確実性推定を出力可能、予測の信頼性を向上

モデル能力

ゼロショット画像分類
クロスモーダル検索
不確実性推定
マルチモーダル特徴抽出

使用事例

画像理解
ゼロショット画像分類
特定の訓練不要で新規画像を分類可能
ImageNet-1kで74.6% top-1精度を達成
クロスモーダル検索
画像テキスト検索
テキストクエリに基づき関連画像を検索、または画像から関連テキストを検索
ゼロショット検索性能59.6%
ロバスト性評価
分布シフト評価
ImageNet分布シフトデータでモデルのロバスト性を評価
63.0%精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase