V

Vit Huge Patch14 Clip 224.metaclip Altogether

timmによって開発
ViT-Hugeアーキテクチャに基づくCLIPモデルで、ゼロショット画像分類タスクをサポート
ダウンロード数 171
リリース時間 : 12/23/2024

モデル概要

このモデルはOpenCLIPとtimmのデュアルユース視覚言語モデルで、ViT-Hugeアーキテクチャに基づき、MetaCLIPデータセットでトレーニングされ、ゼロショット画像分類タスクをサポートします。

モデル特徴

デュアルフレームワーク互換
OpenCLIPとtimmフレームワークの両方をサポート
ゼロショット能力
特定のトレーニングなしで画像分類タスクを実行可能
大規模事前学習
MetaCLIPデータセットでトレーニングされ、幅広い視覚概念理解能力を有する

モデル能力

ゼロショット画像分類
画像-テキストマッチング
クロスモーダル理解

使用事例

コンテンツ理解
画像自動タグ付け
未タグ付け画像に対して記述的なラベルを生成
数千の一般的な物体やシーンを認識可能
視覚検索
テキストベースの画像検索
自然言語クエリを使用して関連画像を検索
トレーニングなしでクロスモーダル検索を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase