V

Vit Medium Patch32 Clip 224.tinyclip Laion400m

timmによって開発
OpenCLIPライブラリに基づく視覚言語モデルで、ゼロショット画像分類タスクをサポートします。
ダウンロード数 110
リリース時間 : 3/20/2024

モデル概要

このモデルはVision Transformer (ViT)アーキテクチャに基づく視覚言語モデルで、主にゼロショット画像分類タスクに使用されます。画像とテキストの表現能力を組み合わせており、特定のタスク訓練なしで画像を分類できます。

モデル特徴

ゼロショット学習
特定のタスク訓練なしで画像を分類でき、様々なシナリオに適用可能です。
視覚言語連合表現
画像とテキストの表現能力を組み合わせ、モデルの汎化能力を向上させます。
ViTアーキテクチャベース
Vision Transformerアーキテクチャを使用し、画像データを効率的に処理できます。

モデル能力

ゼロショット画像分類
画像表現学習
テキスト表現学習

使用事例

画像分類
ゼロショット画像分類
特定のタスク訓練なしで画像を分類します。
マルチモーダルアプリケーション
画像検索
テキストクエリと組み合わせて関連画像を検索します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase