V

Vit Large Patch16 Siglip 256.v2 Webli

Developed by timm
基於SigLIP 2架構的視覺Transformer模型,專為圖像特徵提取設計,訓練於webli數據集
Downloads 525
Release Time : 2/21/2025

Model Overview

該模型是SigLIP 2的視覺編碼器部分,採用ViT-Large架構,專注於提取高質量的圖像特徵表示,適用於多模態任務

Model Features

SigLIP 2架構
採用改進的視覺-語言預訓練架構,具有增強的語義理解和定位能力
大規模預訓練
在webli大規模數據集上預訓練,學習廣泛的視覺概念
密集特徵提取
能夠提取高質量的圖像特徵表示,適用於下游視覺任務

Model Capabilities

圖像特徵提取
視覺語義理解
多模態表示學習

Use Cases

計算機視覺
圖像檢索
利用提取的圖像特徵進行相似圖像搜索
高精度檢索結果
視覺問答
作為視覺編碼器用於多模態問答系統
提升問答準確性
多模態應用
圖文匹配
評估圖像與文本描述的匹配程度
改進的跨模態對齊能力
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase