V

Vit Base Patch16 Siglip 256.webli

由timm開發
基於SigLIP的ViT-B-16圖像編碼器模型,採用原始注意力池化,適用於圖像特徵提取任務。
下載量 269
發布時間 : 12/24/2024

模型概述

該模型是基於SigLIP(Sigmoid Loss for Language-Image Pre-training)的ViT-B-16架構圖像編碼器,主要用於圖像特徵提取任務。

模型特點

基於SigLIP預訓練
採用Sigmoid Loss進行語言-圖像預訓練,優化了圖像特徵提取能力。
ViT-B-16架構
使用Vision Transformer Base 16架構,具有強大的圖像處理能力。
原始注意力池化
採用原始注意力池化機制,提高了特徵提取的效率和準確性。

模型能力

圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
可用於圖像分類任務,提取圖像特徵供分類器使用。
圖像檢索
可用於圖像檢索任務,通過提取的特徵進行相似圖像搜索。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase