V

Vit Base Patch16 Siglip 384.v2 Webli

timmによって開発
SigLIP 2ベースの視覚トランスフォーマーモデル、画像特徴抽出用に設計、webliデータセットで事前学習済み
ダウンロード数 330
リリース時間 : 2/21/2025

モデル概要

これはSigLIP 2視覚トランスフォーマーモデルで、画像エンコーダ部分のみを含み、画像特徴抽出タスクに適しています。モデルはViTアーキテクチャに基づき、シグモイド損失で事前学習されています。

モデル特徴

SigLIP 2改良
SigLIP 2アーキテクチャベースで、改良されたセマンティック理解と位置特定能力を有する
密な特徴抽出
画像の密な特徴表現を抽出可能
大規模事前学習
webli大規模データセットを使用して事前学習済み

モデル能力

画像特徴抽出
視覚的セマンティック理解
画像位置特定

使用事例

コンピュータビジョン
画像検索
抽出した画像特徴を使用して類似画像を検索
視覚的位置特定
画像内の重要な領域を識別・位置特定
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase