V

Vit Giantopt Patch16 Siglip 384.v2 Webli

Developed by timm
基於SigLIP 2的ViT圖像編碼器,專為timm設計,適用於視覺語言任務
Downloads 160
Release Time : 2/21/2025

Model Overview

這是一個基於SigLIP 2架構的視覺變換器(ViT)模型,僅包含圖像編碼器部分。它使用Sigmoid損失函數進行預訓練,適用於各種視覺語言理解任務。

Model Features

SigLIP 2架構
採用改進的SigLIP 2架構,具有增強的語義理解和定位能力
Sigmoid損失函數
使用Sigmoid損失函數進行預訓練,提高了模型性能
高分辨率處理
支持384x384像素的輸入分辨率
Webli數據集預訓練
在Webli大規模數據集上進行預訓練

Model Capabilities

圖像特徵提取
視覺語義理解
圖像定位

Use Cases

視覺語言任務
圖像檢索
基於文本查詢檢索相關圖像
圖像標註
為圖像生成描述性文本
視覺問答
回答關於圖像內容的問題
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase