V

Vit Large Patch14 Clip 336.openai

timmによって開発
OpenAIが開発したCLIPモデル、ViT-L/14アーキテクチャを採用、ゼロショット画像分類タスクをサポート
ダウンロード数 35.62k
リリース時間 : 4/10/2023

モデル概要

CLIPモデルはコントラスト学習により画像とテキストエンコーダを共同訓練し、クロスモーダル理解を実現、特にゼロショット画像分類タスクに優れている

モデル特徴

ゼロショット学習能力
特定タスクの微調整なしで新しいカテゴリの画像分類が可能
クロスモーダル理解
共同訓練により画像とテキストの意味的整合を実現
ロバスト性設計
コンピュータビジョンタスク向けにロバスト性と汎化性を最適化

モデル能力

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル検索

使用事例

学術研究
コンピュータビジョンロバスト性研究
異なる分布データにおけるモデルの性能を研究
論文でクロスデータセット汎化能力を実証
マルチモーダル学習研究
視覚-言語共同表現学習を探索
画像とテキストの共有埋め込み空間を構築
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase