V

Vit Large Patch14 Clip 224.laion2b

timmによって開発
CLIPアーキテクチャに基づく視覚Transformerモデル、画像特徴抽出に特化
ダウンロード数 502
リリース時間 : 12/24/2024

モデル概要

これはCLIPアーキテクチャに基づく視覚Transformerモデルで、画像特徴抽出タスク専用に設計されています。ViT-Largeアーキテクチャを採用し、224x224解像度の入力画像を処理できます。

モデル特徴

大規模事前学習
laion2Bデータセットで事前学習済み、強力な画像理解能力を有する
高解像度処理
224x224解像度の画像入力をサポート
Transformerアーキテクチャ
Vision Transformerアーキテクチャを採用、グローバルな注意機構を備える

モデル能力

画像特徴抽出
画像表現学習
視覚コンテンツ理解

使用事例

コンピュータビジョン
画像検索
類似画像検索のための画像特徴抽出
視覚コンテンツ分析
画像内容を理解し意味的特徴を抽出
マルチモーダルアプリケーション
画像テキストマッチング
テキストエンコーダーと連携したクロスモーダル検索の実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase